Tekoäly

Gemini 1.5:n tutkiminen: Kuinka Googlen uusin multimodaalinen tekoälymalli nostaa tekoälymaisemaa edeltäjäänsä pidemmälle

Julkaistu Helmikuu 20, 2024

Tohtori Tehseen Zia

Tekoälyn nopeasti kehittyvässä ympäristössä Google jatkaa edelläkävijänä multimodaalinen AI teknologioita. Pian Gemini 1.0 -debyytin jälkeen heidän huippuluokansa multimodaalinen isokielimalli, Google on nyt julkistanut Gemini 1.5. Tämä iteraatio ei vain lisää kapasiteettia Gemini 1.0 mutta tuo myös merkittäviä parannuksia Googlen multimodaalisen datan käsittely- ja integrointimenetelmiin. Tässä artikkelissa tarkastellaan Gemini 1.5:tä ja valotetaan sen innovatiivista lähestymistapaa ja erityispiirteitä.

Kaksoset 1.0: Perustan luominen

Google DeepMindin ja Google Researchin 6. joulukuuta 2023 julkaisema Gemini 1.0 esitteli uudenlaisen multimodaalisen tekoälymallin, joka pystyy ymmärtämään ja luomaan sisältöä eri muodoissa, kuten tekstiä, ääntä, kuvia ja videoita. Tämä merkitsi merkittävää askelta tekoälyssä, joka laajensi mahdollisuuksia erilaisten tietotyyppien hallintaan.

Geminin erottuva ominaisuus on sen kyky yhdistää saumattomasti useita tietotyyppejä. Toisin kuin perinteiset tekoälymallit, jotka voivat erikoistua yhteen tietomuotoon, Gemini integroi tekstiä, visuaalista ja ääntä. Tämän integroinnin ansiosta se voi suorittaa tehtäviä, kuten käsinkirjoitettujen muistiinpanojen analysointia tai monimutkaisten kaavioiden purkamista, mikä ratkaisee monenlaisia monimutkaisia haasteita.

Gemini-perhe tarjoaa malleja erilaisiin sovelluksiin: Ultra-malli monimutkaisiin tehtäviin, Pro-malli nopeutta ja skaalautuvuutta suurille alustoille, kuten Google Bard, ja Nano-mallit (Nano-1 ja Nano-2) 1.8 miljardilla ja 3.25 miljardilla parametrilla , jotka on suunniteltu integroitaviksi laitteisiin, kuten Google Pixel 8 Pro -älypuhelimeen.

Hyppy kaksosille 1.5

Googlen uusin julkaisu, Gemini 1.5, parantaa edeltäjänsä Gemini 1.0:n toiminnallisuutta ja tehokkuutta. Tämä versio ottaa käyttöön uuden... Asiantuntijoiden sekoitus (MoE) -arkkitehtuuri, poikkeama edeltäjänsä yhtenäisestä, suuresta mallista. Tämä arkkitehtuuri sisältää kokoelman pienempiä, erikoistuneita muuntajan mallit, joista jokainen on taitava hallitsemaan tiettyjä datasegmenttejä tai erillisiä tehtäviä. Tämän asennuksen avulla Gemini 1.5 voi dynaamisesti ottaa käyttöön sopivimman asiantuntijan saapuvan tiedon perusteella, mikä virtaviivaistaa mallin kykyä oppia ja käsitellä tietoja.

Tämä innovatiivinen lähestymistapa parantaa merkittävästi mallin koulutus- ja käyttöönottotehokkuutta aktivoimalla tehtäviin vain tarvittavat asiantuntijat. Tämän ansiosta Gemini 1.5 pystyy nopeasti hallitsemaan monimutkaisia tehtäviä ja tuottamaan korkealaatuisia tuloksia tehokkaammin kuin perinteiset mallit. Tällaiset edistysaskeleet antavat Googlen tutkimustiimeille mahdollisuuden nopeuttaa Gemini-mallin kehitystä ja parantamista, mikä laajentaa tekoälyalueen mahdollisuuksia.

Laajentuvat ominaisuudet

Merkittävä parannus Gemini 1.5:ssä on sen laajennettu tiedonkäsittelykyky. Mallin konteksti-ikkuna eli käyttäjädatan määrä, jota se voi analysoida vastausten luomiseksi, ulottuu nyt jopa miljoonaan tokeniin – huomattava lisäys Gemini 1:n 32,000 1.0 tokeniin verrattuna. Tämä parannus tarkoittaa, että Gemini 1.5 Pro voi samanaikaisesti käsitellä laajoja tietomääriä, kuten tunnin videosisältöä, yksitoista tuntia ääntä tai suuria koodikantoja ja tekstidokumentteja. Sitä on myös testattu onnistuneesti jopa 10 miljoonalla tokenilla, mikä osoittaa sen poikkeuksellisen kyvyn ymmärtää ja tulkita valtavia tietojoukkoja.

Kurkistus Gemini 1.5:n ominaisuuksiin

Gemini 1.5:n arkkitehtuuriset parannukset ja laajennettu konteksti-ikkuna mahdollistavat sille hienostuneen analyysin laajoista tietojoukoista. Olipa kyse sitten Apollo 11 -lennon monimutkaisten yksityiskohtien tutkimisesta opintosuoritusotteet tai tulkitsee mykkäelokuvaa, Gemini 1.5 osoittaa vertaansa vailla olevia ongelmanratkaisukykyjä, erityisesti pitkien koodilohkojen kanssa.

Googlen edistyneillä TPUv4-kiihdytyksillä kehitetty Gemini 1.5 Pro on koulutettu monipuolisella tietojoukolla, joka kattaa useita eri alueita ja sisältää multimodaalista ja monikielistä sisältöä. Tämä laaja koulutuspohja yhdistettynä ihmisen mieltymystietoihin perustuvaan hienosäätöön varmistaa, että Gemini 1.5 Pron tuotokset vastaavat hyvin ihmisen havaintoja.

Kautta tiukka vertailutestaus Lukuisia tehtäviä vastaan Gemini 1.5 Pro ei ainoastaan päihittää edeltäjäänsä suurimmassa osassa arvioita, vaan myös pärjää suuren Gemini 1.0 Ultra -mallin kanssa. Gemini 1.5 Prossa on vahvat "kontekstin sisäisen oppimisen" kyvyt, jotka saavat tehokkaasti uutta tietoa yksityiskohtaisista kehotuksista ilman lisäsäätöjä. Tämä näkyi erityisen selvästi sen suorituksissa Konekäännös yhdestä kirjasta (MTOB) benchmark, jossa se käännettiin englannista Kalamangiin – kieleen, jota puhuu pieni joukko ihmisiä – taidolla, joka on verrattavissa ihmisen oppimiseen, mikä korostaa sen sopeutumiskykyä ja oppimistehokkuutta.

Rajoitettu pääsy esikatseluun

Gemini 1.5 Pro on nyt saatavilla rajoitettuna esikatseluversiona kehittäjille ja yritysasiakkaille AI-studio ja Vertex AI, jossa on suunnitelmia laajemmasta julkaisusta ja muokattavissa olevista vaihtoehdoista. Tämä esikatseluvaihe tarjoaa ainutlaatuisen mahdollisuuden tutkia sen laajennettua kontekstiikkunaa, ja käsittelyn nopeuden odotetaan paranevan. Gemini 1.5 Prosta kiinnostuneet kehittäjät ja yritysasiakkaat voivat rekisteröityä AI Studion kautta tai ottaa yhteyttä Vertex AI -tilitiimiinsä saadakseen lisätietoja.

Bottom Line

Gemini 1.5 on merkittävä askel eteenpäin multimodaalisen tekoälyn kehityksessä. Gemini 1.0:n luoman perustan pohjalta rakennettu uusi versio tarjoaa parannettuja menetelmiä erityyppisten tietojen käsittelyyn ja integrointiin. Sen uudenlainen arkkitehtoninen lähestymistapa ja laajennetut tiedonkäsittelyominaisuudet korostavat Googlen jatkuvia pyrkimyksiä parantaa tekoälyteknologiaa. Tehokkaamman tehtävienkäsittelyn ja edistyneen oppimisen potentiaalinsa ansiosta Gemini 1.5 esittelee tekoälyn jatkuvaa kehitystä. Tällä hetkellä valikoidulle kehittäjäryhmälle ja yritysasiakkaille saatavilla oleva versio viestii jännittävistä mahdollisuuksista tekoälyn tulevaisuudelle, laajemman saatavuuden ja tulevien parannusten myötä.

Liittyvät aiheet:Suuret multimodaaliset mallit Multimodaalinen AI Multimodaalinen laajakielinen malli

Seuraavaksi

Large Vision -mallien (LVM) valtuuttaminen toimialuekohtaisiin tehtäviin siirtooppimisen avulla

Älä missaa

Mitä tiedämme OpenAI:n Sorasta tähän mennessä

Tohtori Tehseen Zia

Dr. Tehseen Zia on vakinainen apulaisprofessori COMSATS University Islamabadissa, ja hänellä on tekoälyn tohtori Wienin teknillisestä yliopistosta, Itävallasta. Hän on erikoistunut tekoälyyn, koneoppimiseen, tietotieteeseen ja tietokonenäköön, ja hän on tehnyt merkittävän panoksen julkaisuilla arvostetuissa tieteellisissä aikakauslehdissä. Dr. Tehseen on myös johtanut erilaisia teollisia projekteja päätutkijana ja toiminut tekoälykonsulttina.