Tekoäly

Gemma: Google tuo kehittyneitä tekoälyominaisuuksia avoimen lähdekoodin kautta

Julkaistu

2 kuukautta sitten

Helmikuu 29, 2024

Tekoälyn (AI) alalla on tapahtunut valtavaa edistystä viime vuosina, mikä johtuu suurelta osin syvä oppiminen ja luonnollinen kielenkäsittely (NLP). Näiden edistysten eturintamassa ovat suuria kielimalleja (LLM:t) – Tekoälyjärjestelmät, jotka on koulutettu valtaviin määriin tekstidataa, jotka voivat tuottaa ihmisen kaltaista tekstiä ja osallistua keskustelutehtäviin.

LLM:t, kuten Googlen PaLM, Anthropic's Claude ja DeepMind's Gopher, ovat osoittaneet merkittäviä kykyjä koodauksesta maalaisjärkeen päättelyyn. Suurin osa näistä malleista ei kuitenkaan ole julkistettu, mikä rajoittaa niiden pääsyä tutkimukseen, kehitykseen ja hyödyllisiin sovelluksiin.

Tämä muuttui, kun äskettäin julkistettiin Gemma – Googlen DeepMindin LLM-perhe, joka perustuu heidän tehokkaisiin Gemini-malleihinsa. Tässä blogiviestissä sukeltaamme Gemman arkkitehtuuriin, koulutusprosessiin, suorituskykyyn ja vastuulliseen julkaisuun.

Yleiskatsaus Gemasta

Helmikuussa 2023 DeepMind avoin kahta kokoa Gemma-malleja – 2 miljardin parametrin versio, joka on optimoitu laitteessa tapahtuvaa käyttöönottoa varten, ja suurempi 7 miljardin parametrin versio, joka on suunniteltu GPU/TPU-käyttöön.

Gemma hyödyntää samanlaista muuntajapohjaista arkkitehtuuria ja koulutusmenetelmiä kuin DeepMindin johtavissa Gemini-malleissa. Se oli koulutettu käyttämään jopa 6 biljoonaa tekstiä verkkodokumenteista, matematiikasta ja koodista.

DeepMind julkaisi sekä raakoja valmiiksi koulutetut Gemman tarkistuspisteet että versiot, jotka on hienosäädetty valvotulla oppimisella ja ihmispalautteella parantaakseen ominaisuuksia esimerkiksi dialogissa, ohjeiden seuraamisessa ja koodauksessa.

Gemman käytön aloittaminen

Gemman avoin julkaisu tekee sen edistyneistä tekoälyominaisuuksista kehittäjien, tutkijoiden ja harrastajien ulottuvilla. Tässä on nopea aloitusopas:

Alustan agnostinen käyttöönotto

Gemman keskeinen vahvuus on sen joustavuus – voit käyttää sitä prosessoreilla, GPU:illa tai TPU:illa. Hyödynnä CPU:ta varten TensorFlow Lite tai HuggingFace Transformers. Käytä TensorFlow'ta GPU/TPU-suorituskyvyn nopeuttamiseksi. Pilvipalvelut, kuten Google Cloudin Vertex AI, tarjoavat myös saumattoman skaalauksen.

Käytä esikoulutettuja malleja

Gemmasta on erilaisia esikoulutettuja versioita tarpeidesi mukaan. 2B- ja 7B-mallit tarjoavat vahvat generatiiviset ominaisuudet heti käyttövalmiiksi. Mukautettuun hienosäätöön mallit 2B-FT ja 7B-FT ovat ihanteellisia lähtökohtia.

Rakenna jännittäviä sovelluksia

Gemman avulla voit rakentaa monenlaisia sovelluksia, kuten tarinoiden luomista, kielten kääntämistä, kysymyksiin vastaamista ja luovaa sisällöntuotantoa. Tärkeintä on hyödyntää Gemman vahvuuksia hienosäätämällä omia tietojoukkojasi.

arkkitehtuuri

Gemma käyttää vain dekooderille tarkoitettua muuntaja-arkkitehtuuria, joka perustuu edistysaskeliin, kuten usean kyselyn huomiointiin ja pyöriviin paikannusupouksiin:

Muuntajat: Vuonna 2017 esitellystä muuntajaarkkitehtuurista, joka perustuu pelkästään huomiomekanismeihin, on tullut kaikkialla NLP:ssä. Gemma perii muuntajan kyvyn mallintaa pitkän kantaman riippuvuuksia tekstissä.
Vain dekooderi: Gemma käyttää vain muuntajadekooderipinoa, toisin kuin kooderi-dekooderimallit, kuten BART tai T5. Tämä tarjoaa vahvat luontiominaisuudet tehtäviin, kuten tekstin luomiseen.
Usean kyselyn huomio: Gemma käyttää usean kyselyn huomiointia suuremmassa mallissaan, jolloin jokainen huomiopää voi käsitellä useita kyselyitä rinnakkain päätelmien nopeuttamiseksi.
Pyörivät asento upotukset: Gemma edustaa paikkatietoa käyttämällä pyöriviä upotuksia absoluuttisen sijainnin koodauksen sijaan. Tämä tekniikka pienentää mallin kokoa säilyttäen samalla sijaintitiedot.

Tekniikoiden, kuten usean kyselyn huomion ja pyörivien asennon upotusten, käyttö mahdollistaa Gemma-mallien optimaalisen kompromissin suorituskyvyn, päättelynopeuden ja mallin koon välillä.

Data ja koulutusprosessi

Gemma koulutettiin käyttämään jopa 6 biljoonaa tekstidataa, pääasiassa englanniksi. Tämä sisälsi verkkodokumentteja, matemaattista tekstiä ja lähdekoodia. DeepMind panosti merkittävästi tietojen suodattamiseen, myrkyllisen tai haitallisen sisällön poistamiseen luokittimien ja heuristiikan avulla.

Koulutus suoritettiin Googlen TPUv5-infrastruktuurilla, jossa Gemma-4096B:n koulutukseen käytettiin jopa 7 TPU:ta. Tehokkaat malli- ja datarinnakkaistekniikat mahdollistivat massiivisten mallien koulutuksen hyödykelaitteistolla.

Vaiheittaista koulutusta hyödynnettiin ja tiedonjakelua sopeutettiin jatkuvasti laadukkaaseen ja relevanttiin tekstiin. Viimeisissä hienosäätövaiheissa ominaisuuksien parantamiseksi käytettiin ihmisten luomien ja synteettisten ohjeiden yhdistelmää.

Mallin suorituskyky

DeepMind arvioi Gemma-malleja tiukasti yli 25 vertailuarvon joukolla, jotka kattavat kysymyksiin vastaamisen, päättelyn, matematiikan, koodauksen, maalaisjärjen ja dialogiominaisuudet.

Gemma saavuttaa huippuluokan tuloksia verrattuna samankokoisiin avoimen lähdekoodin malleihin useimmissa vertailuarvoissa. Muutamia kohokohtia:

Matematiikka: Gemma on erinomainen matemaattisissa päättelytesteissä, kuten GSM8K ja MATH, yli 10 pisteellä mallit, kuten Codex ja Anthropic's Claude.
Koodaus: Gemma vastaa tai ylittää Codexin suorituskyvyn ohjelmoinnin vertailuarvoissa, kuten MBPP, vaikka sitä ei ole erityisesti koulutettu koodiin.
Vuoropuhelu: Gemma osoittaa vahvaa keskustelukykyä 51.7 %:n voittoprosentilla Anthropicin Mistral-7B:hen verrattuna ihmisen mieltymystesteissä.
perustelut: Tehtävissä, jotka vaativat päätelmiä, kuten ARC ja Winogrande, Gemma ylittää muut 7B-mallit 5-10 pisteellä.

Gemman monipuolisuus eri tieteenaloilla osoittaa sen vahvat yleiset älykkyysominaisuudet. Vaikka ihmistason suorituskykyyn on edelleen aukkoja, Gemma edustaa harppausta eteenpäin avoimen lähdekoodin NLP:ssä.

Turvallisuus ja vastuu

Suurten mallien avoimen lähdekoodin painoarvojen vapauttaminen tuo mukanaan haasteita tahallisen väärinkäytön ja luontaisten mallien vääristymien suhteen. DeepMind ryhtyi toimiin riskien vähentämiseksi:

Tietojen suodatus: Mahdollisesti myrkyllinen, laiton tai puolueellinen teksti poistettiin harjoitustiedoista luokittimilla ja heuristiikoilla.
Arviot: Gemmaa testattiin yli 30:llä vertailuarvolla, jotka on kuratoitu turvallisuuden, oikeudenmukaisuuden ja kestävyyden arvioimiseksi. Se vastasi tai ylitti muita malleja.
Hienosäätö: Mallin hienosäätö keskittyi parantamaan turvallisuusominaisuuksia, kuten tiedon suodatusta ja asianmukaisia suojautumis-/kieltäytymiskäyttäytymistä.
Käyttöehdot: Käyttöehdot kieltävät Gemma-mallien loukkaavan, laittoman tai epäeettisen käytön. Täytäntöönpano on kuitenkin edelleen haastavaa.
Mallikortit: Avoimuuden edistämiseksi julkaistiin kortteja, joissa kerrottiin mallien ominaisuuksista, rajoituksista ja harhoista.

Vaikka avoimen hankinnan riskejä on olemassa, DeepMind päätti, että Gemman julkaisu tarjoaa nettohyötyjä sen turvallisuusprofiilin ja tutkimuksen mahdollistamisen perusteella. Mahdollisten haittojen tarkka seuranta on kuitenkin edelleen kriittistä.

Tekoälyinnovaatioiden seuraavan aallon käyttöönotto

Gemman julkaiseminen avoimen lähdekoodin malliperheenä avaa edistystä koko AI-yhteisössä:

saavutettavuus: Gemma vähentää esteitä organisaatioiden rakentamiselle huippuluokan NLP:n avulla, koska niillä oli aiemmin korkeat laskenta-/tietokustannukset omien LLM:ien kouluttamisesta.
Uudet sovellukset: DeepMind mahdollistaa helpommin hyödyllisten sovellusten kehittämisen koulutuksen, tieteen ja saavutettavuuden kaltaisilla aloilla käyttämällä avoimen hankinnan esikoulutettuja ja viritettyjä tarkistuspisteitä.
Räätälöinti: Kehittäjät voivat räätälöidä Gemman edelleen teollisuus- tai toimialuekohtaisiin sovelluksiin jatkuvalla omistusoikeudellisten tietojen koulutuksella.
Tutkimus: Avoimet mallit, kuten Gemma, lisäävät nykyisten NLP-järjestelmien läpinäkyvyyttä ja auditointia, mikä valaisee tulevaisuuden tutkimussuuntia.
Innovaatio: Vahvojen perusmallien, kuten Gemman, saatavuus nopeuttaa edistystä sellaisilla aloilla kuin harhan vähentäminen, tosiasiallisuus ja tekoälyn turvallisuus.

Tarjoamalla Gemman ominaisuudet kaikille avoimen lähteen kautta DeepMind toivoo voivansa edistää tekoälyn vastuullista kehitystä sosiaalisen hyödyn vuoksi.

Tie edessä

Jokaisen tekoälyn harppauksen myötä lähestymme malleja, jotka kilpailevat tai ylittävät ihmisen älykkyyden kaikilla aloilla. Gemman kaltaiset järjestelmät korostavat, kuinka nopea kehitys itsevalvotuissa malleissa vapauttaa yhä kehittyneempiä kognitiivisia ominaisuuksia.

Tekoälyn luotettavuuden, tulkittavuuden ja hallittavuuden parantamiseksi on kuitenkin vielä työtä – alueita, joilla ihmisen älykkyys hallitsee edelleen. Matematiikan kaltaiset alat korostavat näitä jatkuvia aukkoja, ja Gemma sai 64 % MMLU:sta verrattuna arvioituun 89 %:iin ihmisen suorituskyvystä.

Näiden aukkojen kurominen ja yhä tehokkaampien tekoälyjärjestelmien turvallisuus ja etiikka ovat tulevien vuosien keskeisiä haasteita. Oikean tasapainon löytäminen avoimuuden ja varovaisuuden välillä on ratkaisevan tärkeää, sillä DeepMind pyrkii demokratisoimaan tekoälyn edut ja hallitsemaan uusia riskejä.

Tekoälyturvallisuutta edistävät aloitteet – kuten Dario Amodein ANC, DeepMindin Ethics & Society -tiimi ja Anthropicin Constitutional AI – osoittavat tämän vivahteen tarpeen kasvavaa tunnustamista. Merkittävä edistyminen edellyttää avointa, näyttöön perustuvaa vuoropuhelua tutkijoiden, kehittäjien, poliittisten päättäjien ja yleisön välillä.

Jos navigoidaan vastuullisesti, Gemma ei edusta tekoälyn huippua, vaan perusleiriä seuraavan sukupolven tekoälytutkijoille, jotka seuraavat DeepMindin jalanjälkiä kohti oikeudenmukaista, hyödyllistä tekoälyä.

Yhteenveto

DeepMindin Gemma-mallien julkaisu merkitsee uutta aikakautta avoimen lähdekoodin tekoälylle – aikakautta, joka ylittää kapeat vertailuarvot yleisiksi älykkyysominaisuuksiksi. Gemma, joka on testattu laajasti turvallisuuden ja laajasti saatavilla, asettaa uuden standardin vastuulliselle avoimelle tekoälyn lähteelle.

Yhteistyöarvoilla karkaistu kilpailuhenki ajaa Gemman kaltaisten läpimurtojen jakaminen nostaa kaikki AI-ekosysteemin veneet. Koko yhteisöllä on nyt käytössään monipuolinen LLM-perhe ajamaan tai tukemaan heidän aloitteitaan.

Vaikka riskejä on jäljellä, DeepMindin tekninen ja eettinen huolellisuus antaa luottamusta siihen, että Gemman hyödyt ovat suuremmat kuin sen mahdolliset haitat. Tekoälyominaisuuksien kehittyessä yhä kehittyneempään on tärkeää säilyttää tämä avoimuuden ja varovaisuuden välinen vivahde.

Gemma vie meidät askeleen lähemmäksi tekoälyä, joka hyödyttää koko ihmiskuntaa. Mutta monet suuret haasteet odottavat edelleen hyväntahtoisen tekoälyn tiellä. Jos tekoälytutkijat, -kehittäjät ja koko yhteiskunta pystyvät ylläpitämään yhteistä edistystä, Gemmaa voidaan jonakin päivänä nähdä historiallisena perusleirina eikä viimeisenä huippukokouksena.

Liittyvät aiheet:Deepmind Gemma OTK

Seuraavaksi

Tekoäly markkinoinnissa: MWC Conference Insights

Älä missaa

Suurten kielimallien haavoittuvuudet ja turvallisuusuhat

Aayush Mittal

Olen viettänyt viimeiset viisi vuotta uppoutuen koneoppimisen ja syväoppimisen kiehtovaan maailmaan. Intohimoni ja asiantuntemukseni ovat saaneet minut osallistumaan yli 50:een erilaiseen ohjelmistosuunnitteluprojektiin keskittyen erityisesti tekoälyyn/ML:ään. Jatkuva uteliaisuuteni on myös vetänyt minut kohti luonnollisen kielen käsittelyä, alaa, jota olen innokas tutkimaan lisää.