stubbur Google's Multimodal AI Gemini - A Technical Deep Dive - Unite.AI
Tengja við okkur

Artificial Intelligence

Multimodal AI Gemini Tvíburi frá Google – tæknileg djúpdýfa

mm
Uppfært on
Fyrsta fjölþætta líkan Google: Gemini

Sundar Pichai, forstjóri Google, ásamt Demis Hassabis frá Google DeepMind kynnti Gemini í desember 2023. Þetta nýja stóra tungumálalíkan er samþætt í miklu úrvali af vörum Google og býður upp á endurbætur sem flæða í gegnum þjónustu og verkfæri sem milljónir nota.

Gemini, háþróuð fjölþætt gervigreind frá Google, er sprottin af samvinnu sameinuðu DeepMind og Brain AI rannsóknarstofanna. Gemini stendur á herðum forvera sinna og lofar að skila samtengdari og snjöllari svítu af forritum.

Tilkynningin um Google Gemini, sem er staðsett náið eftir frumraun Bard, Duet AI og PaLM 2 LLM, markar skýran ásetning frá Google um að keppa ekki aðeins heldur leiða í gervigreindarbyltingunni.

Andstætt öllum hugmyndum um gervigreindarvetur, gefur kynningin á Gemini til kynna blómlegt gervigreindarvor, fullt af möguleikum og vexti. Þegar við hugleiðum ár frá tilkomu ChatGPT, sem sjálft var byltingarkennd augnablik fyrir gervigreind, bendir aðgerð Google til þess að stækkun iðnaðarins sé langt frá því að vera lokið; í rauninni gæti þetta bara verið að aukast.

Hvað er Gemini?

Gemini líkan Google er fær um að vinna úr fjölbreyttum gagnategundum eins og texta, myndum, hljóði og myndskeiðum. Það kemur í þremur útgáfum-Ultra, Proog Nano-hver sérsniðin fyrir tiltekin forrit, allt frá flóknum rökstuðningi til notkunar í tækinu. Ultra skarar fram úr í margþættum verkefnum og verður fáanlegt á Bard Advanced, á meðan Pro býður upp á jafnvægi milli frammistöðu og auðlindanýtingar, sem þegar er samþætt í Bard fyrir textaboð. Nano, fínstillt fyrir uppsetningu í tæki, kemur í tveimur stærðum og býður upp á vélbúnaðarfínstillingu eins og 4-bita magngreiningu til notkunar án nettengingar í tækjum eins og Pixel 8 Pro.

Arkitektúr Gemini er einstakur í innfæddum fjölþættum úttaksmöguleikum, með því að nota stakar myndtákn til að mynda mynd og samþætta hljóðeiginleika frá Universal Speech Model fyrir blæbrigðaríkan hljóðskilning. Hæfni þess til að meðhöndla myndbandsgögn sem raðmyndir, fléttaðar inn við texta- eða hljóðinntak, sýnir fjölþætta hæfileika þess.

Gemini styður röð texta, myndar, hljóðs og myndbands sem inntak

Gemini styður röð texta, myndar, hljóðs og myndbands sem inntak

Aðgangur að Gemini

Gemini 1.0 er að renna út um vistkerfi Google, þar á meðal Bard, sem nýtur nú góðs af fágaðri getu Gemini Pro. Google hefur einnig samþætt Gemini í leitar-, auglýsinga- og Duet-þjónustuna sína, sem eykur upplifun notenda með hraðari og nákvæmari svörum.

Fyrir þá sem hafa áhuga á að nýta getu Gemini, bjóða Google AI Studio og Google Cloud Vertex aðgang að Gemini Pro, þar sem hið síðarnefnda býður upp á meiri aðlögunar- og öryggiseiginleika.

Til að upplifa aukna getu Bard knúinn af Gemini Pro, geta notendur tekið eftirfarandi einföld skref:

  1. Farðu í Bárð: Opnaðu valinn vafra og farðu á Bard vefsíðuna.
  2. Örugg innskráning: Fáðu aðgang að þjónustunni með því að skrá þig inn með Google reikningnum þínum, sem tryggir óaðfinnanlega og örugga upplifun.
  3. Gagnvirkt spjall: Þú getur nú notað Bard, þar sem hægt er að velja háþróaða eiginleika Gemini Pro.

Kraftur fjölbreytni:

Í kjarna sínum notar Gemini arkitektúr sem byggir á spenni, svipað þeim sem notuð eru í farsælum NLP gerðum eins og GPT-3. Hins vegar er sérstaða Gemini í getu þess til að vinna úr og samþætta upplýsingar úr mörgum aðferðum, þar á meðal texta, myndum og kóða. Þetta er náð með nýrri tækni sem kallast athygli þvert á módel, sem gerir líkaninu kleift að læra tengsl og ósjálfstæði milli mismunandi tegunda gagna.

Hér er sundurliðun á lykilþáttum Gemini:

  • Multimodal kóðari: Þessi eining vinnur inntaksgögnin úr hverri aðferð (td texta, mynd) sjálfstætt, dregur út viðeigandi eiginleika og býr til einstakar framsetningar.
  • Cross-modal Attention Network: Þetta net er hjarta Gemini. Það gerir líkaninu kleift að læra tengsl og ósjálfstæði milli mismunandi framsetninga, sem gerir þeim kleift að „tala“ hvert við annað og auðga skilning sinn.
  • Multimodal Decoder: Þessi eining notar auðguðu framsetninguna sem myndast af athyglisneti þvert á móta til að framkvæma ýmis verkefni, svo sem myndatexta, gerð texta í mynd og gerð kóða.

Tvíburalíkan snýst ekki bara um að skilja texta eða myndir - það snýst um að samþætta mismunandi tegundir upplýsinga á þann hátt sem er miklu nær því hvernig við, sem menn, skynjum heiminn. Tvíburar geta til dæmis skoðað röð mynda og ákvarðað rökrétta eða staðbundna röð hluta innan þeirra. Það getur einnig greint hönnunareiginleika hluta til að dæma, svo sem hvor tveggja bíla er með loftaflfræðilegri lögun.

En hæfileikar Gemini ná lengra en aðeins sjónrænn skilningur. Það getur breytt setti leiðbeininga í kóða, búið til hagnýt verkfæri eins og niðurtalningartíma sem virkar ekki aðeins eins og mælt er fyrir um heldur inniheldur einnig skapandi þætti, svo sem hvetjandi emojis, til að auka samskipti notenda. Þetta gefur til kynna hæfileika til að takast á við verkefni sem krefjast blöndu af sköpunargáfu og virkni - færni sem oft er talin greinilega mannleg.

Geta Gemini: Staðbundin rökhugsun

Geta Gemini: Staðbundin rökhugsun (Heimild)

 

Geta Gemini nær til að framkvæma forritunarverkefni

Geta Gemini nær til að framkvæma forritunarverkefni (Heimild)

Gemini háþróuð hönnun byggir á ríkri sögu tauganetrannsókna og nýtir háþróaða TPU tækni Google til þjálfunar. Gemini Ultra, einkum, hefur sett ný viðmið á ýmsum gervigreindum sviðum, sem sýnir ótrúlegar frammistöðuhækkanir í fjölþættum rökhugsunarverkefnum.

Með getu sinni til að flokka og skilja flókin gögn, býður Gemini lausnir fyrir raunveruleg forrit, sérstaklega í menntun. Það getur greint og leiðrétt lausnir á vandamálum, eins og í eðlisfræði, með því að skilja handskrifaðar athugasemdir og útvega nákvæma stærðfræðilega leturgerð. Slík hæfileiki bendir til framtíðar þar sem gervigreind aðstoðar í fræðsluumhverfi og býður nemendum og kennurum háþróuð verkfæri til að læra og leysa vandamál.

Gemini's hefur verið nýtt til að búa til umboðsmenn eins og AlphaCode 2, sem skarar fram úr í samkeppnishæfum forritunarvandamálum. Þetta sýnir möguleika Gemini til að starfa sem almenn gervigreind, sem er fær um að takast á við flókin, fjölþrepa vandamál.

Gemini Nano færir kraft gervigreindar í hversdagsleg tæki, viðheldur glæsilegum hæfileikum í verkefnum eins og samantekt og lesskilningi, sem og kóðunar- og STEM-tengdum áskorunum. Þessar smærri gerðir eru fínstilltar til að bjóða upp á hágæða gervigreindarvirkni á tækjum með minni minni, sem gerir háþróaða gervigreind aðgengilegri en nokkru sinni fyrr.

Þróun Gemini fól í sér nýjungar í þjálfun reiknirita og innviða, með því að nota nýjustu TPUs Google. Þetta leyfði skilvirkri stærðarstærð og öflugum þjálfunarferlum, sem tryggði að jafnvel minnstu gerðirnar skili framúrskarandi árangri.

Þjálfunargagnasettið fyrir Gemini er eins fjölbreytt og getu þess, þar á meðal vefskjöl, bækur, kóða, myndir, hljóð og myndbönd. Þetta fjölþætta og fjöltyngda gagnasafn tryggir að Gemini líkön geti skilið og unnið úr margs konar efnisgerðum á áhrifaríkan hátt.

Gemini og GPT-4

Þrátt fyrir tilkomu annarra gerða er spurningin í huga allra hvernig Gemini frá Google gengur upp við OpenAI GPT-4, viðmið iðnaðarins fyrir nýja LLM. Gögn Google benda til þess að þó að GPT-4 kunni að skara fram úr í skynsamlegum rökhugsunarverkefnum, þá hefur Gemini Ultra yfirhöndina á næstum öllum öðrum sviðum.

Gemini VS GPT-4

Gemini VS GPT-4

Ofangreind viðmiðunartafla sýnir glæsilega frammistöðu Gemini gervigreindar Google í ýmsum verkefnum. Sérstaklega hefur Gemini Ultra náð ótrúlegum árangri í MMLU viðmiðinu með 90.04% nákvæmni, sem gefur til kynna yfirburða skilning þess í fjölvalsspurningum í 57 viðfangsefnum.

Í GSM8K, sem metur stærðfræðispurningar í grunnskóla, fær Gemini Ultra 94.4%, sem sýnir háþróaða reiknivinnsluhæfileika sína. Í kóðunarviðmiðum, þar sem Gemini Ultra náði 74.4% einkunn í HumanEval for Python kóða kynslóðinni, sem gefur til kynna sterkan skilning á forritunarmáli.

DROP viðmiðið, sem prófar lesskilning, sér Gemini Ultra aftur fremsta með 82.4% einkunn. Á sama tíma, í skynsamlegu rökhugsunarprófi, HellaSwag, skilar Gemini Ultra sig með prýði, þó það fari ekki fram úr afar háu viðmiðinu sem GPT-4 setur.

Niðurstaða

Einstakur arkitektúr Gemini, knúinn af nýjustu tækni Google, staðsetur hann sem ógnvekjandi leikmann á gervigreindarvettvangi og ögrar núverandi viðmiðum sem settar eru af gerðum eins og GPT-4. Útgáfur þess—Ultra, Pro og Nano— koma til móts við sérstakar þarfir, allt frá flóknum rökhugsunarverkefnum til skilvirkra forrita í tækinu, sem sýnir skuldbindingu Google til að gera háþróaða gervigreind aðgengilega á ýmsum kerfum og tækjum.

Samþætting Gemini inn í vistkerfi Google, frá Bard til Google Cloud Vertex, undirstrikar möguleika þess til að auka notendaupplifun á ýmsum þjónustusviðum. Það lofar ekki aðeins að betrumbæta núverandi forrit heldur einnig að opna nýjar leiðir fyrir gervigreindardrifnar lausnir, hvort sem um er að ræða persónulega aðstoð, skapandi viðleitni eða viðskiptagreiningu.

Þegar við horfum fram á veginn undirstrikar stöðugar framfarir í gervigreindarlíkönum eins og Gemini mikilvægi áframhaldandi rannsókna og þróunar. Áskoranirnar við að þjálfa svo háþróuð módel og tryggja siðferðilega og ábyrga notkun þeirra eru enn í fyrirrúmi í umræðunni.

Ég hef eytt síðustu fimm árum í að sökkva mér niður í heillandi heim vélanáms og djúpnáms. Ástríða mín og sérfræðiþekking hefur leitt mig til að leggja mitt af mörkum til yfir 50 fjölbreyttra hugbúnaðarverkefna, með sérstakri áherslu á gervigreind/ML. Áframhaldandi forvitni mín hefur einnig dregið mig að náttúrulegri málvinnslu, svið sem ég er fús til að kanna frekar.