Connect with us

Microsoftin Phi-3 Mini: Kevyt AI-malli, joka lyö yli painoluokkansa

Tekoäly

Microsoftin Phi-3 Mini: Kevyt AI-malli, joka lyö yli painoluokkansa

mm
Phi-3 : A Highly Capable Language Model Locally on Your Phone
Microsoft on juuri esitellyt uusimman kevyen kielenmallinsa, Phi-3 Minin, joka on kompakti AI-malli, joka on suunniteltu toimimaan tehokkaasti laitteilla, joilla on rajoitettu laskentaresursseja. Vain 3,8 miljardia parametriä, Phi-3 Mini on murto-osa AI-jättien koko, kuten GPT-4, mutta se lupailee vastata heidän kykyjään monilla tärkeillä alueilla.
Phi-3 Minin kehitys edustaa merkittävää merkkipaaluja edistäämään edistyneiden AI-ominaisuuksien demokratisointia tekemällä niistä saatavilla laajemmalle joukolle laitteita. Sen pieni jalanjälki mahdollistaa sen käyttöönoton paikallisesti älypuhelimilla, taulutietokoneilla ja muilla laitteilla, jolloin voidaan välttää viiveet ja tietosuojan vaatimukset, jotka liittyvät pilvipohjaisiin malleihin. Tämä avaa uusia mahdollisuuksia älykkäille laitteiden omille kokemuksille eri aloilla, virtuaaliavustajista ja keskusteluroboteista koodiavustajiin ja kielitaidon tehtäviin.
4-bittinen kvantisoitu phi-3-mini toimii alkujaan iPhoneilla
4-bittinen kvantisoitu phi-3-mini toimii alkujaan iPhoneilla

Mekaniikka: Arkkitehtuuri ja koulutus

Phi-3 Minin ydin on transformer-dekooderimalli, joka perustuu samankaltaiseen arkkitehtuuriin kuin avoin Llama-2-malli. Se sisältää 32 kerrosta, 3072 piilotettua ulottuvuutta ja 32 huomion kohteita, oletusarvoisella kontekstin pituudella 4 000 merkkiä. Microsoft on myös esitellyt pitkän kontekstin version, Phi-3 Mini-128K, joka laajentaa kontekstin pituuden vaikuttavaan 128 000 merkkiin LongRope-tekniikoiden avulla.
Mitä erottaa Phi-3 Minin on sen koulutusmenetelmä. Sen sijaan, että se riippuisi ainoastaan massiivisten tietojoukkojen ja laskentatehon raivokkuudesta, Microsoft on keskittynyt korkealaatuisen, päättelytiheän koulutusaineiston kuratoimiseen. Tämä data koostuu voimakkaasti suodatetusta web-aineistosta sekä suuremmista kielimalleista generoidusta syntetisestä aineistosta.
Koulutusprosessi noudattaa kaksivaiheista lähestymistapaa. Ensimmäisessä vaiheessa malli altistetaan monipuoliseen joukkoon web-lähteisiin, joiden tavoitteena on opettaa sille yleistietoa ja kielitaitoa. Toisessa vaiheessa yhdistetään vielä enemmän suodatettua web-aineistoa ja syntetistä aineistoa, joka on suunniteltu antamaan loogista päättelykykyä ja niukkoja alan asiantuntemusta.
Microsoft viittaa tähän lähestymistapaan “tieto-optimaaliseen järjestelmään”, joka poikkeaa perinteisestä “laskenta-optimaalisen järjestelmän” tai “ylikoulutusjärjestelmän” käytännöstä, jota monet suuret kielimallit käyttävät. Tavoitteena on kalibroida koulutusdata mallin mittaan, tarjoten oikean tason tietoa ja päättelykykyä samalla, kun jätetään riittävästi kapasiteettia muiden kykyjen kehittämiseen.

Uusien Phi-3-mallien laatu, mitattuna suorituskyvyn Massive Multitask Language Understanding (MMLU) -vertailukohteen perusteella
Uusien Phi-3-mallien laatu, mitattuna suorituskyvyn Massive Multitask Language Understanding (MMLU) -vertailukohteen perusteella

Tämä data-keskeinen lähestymistapa on osoittautunut menestyksekkääksi, sillä Phi-3 Mini saavuttaa merkittävää suorituskykyä laajalla joukolla akateemisia vertailukohdearvoja, usein kilpaillen tai ylittäen paljon suurempia malleja. Esimerkiksi se saa 69 %:n MMLU-vertailuarvolla monitehtävien oppimisessa ja ymmärtämisessä ja 8,38 MT-benkillä matemaattisessa päättelyssä – tulokset, jotka ovat verrattavissa malleihin kuten Mixtral 8x7B ja GPT-3.5.

Turvallisuus ja luotettavuus

Yhdessä vaikuttavan suorituskyvyn kanssa Microsoft on asettanut vahvan painopisteen turvallisuudelle ja luotettavuudelle Phi-3 Minin kehityksessä. Malli on käynyt läpi tiukkaa jälkikoulutusprosessia, joka käsittää valvottua hienosäätöä (SFT) ja suoran preferenssioptimoimisen (DPO).
SFT-vaihe hyödyntää erittäin kunnioitettua dataa eri aloilla, mukaan lukien matematiikka, koodaus, päättely, keskustelu, mallin identiteetti ja turvallisuus. Tämä auttaa vahvistamaan mallin kykyjä näillä aloilla samalla, kun se istuttaa vahvan identiteetin ja eettisen käyttäytymisen.
DPO-vaihe puolestaan keskittyy ohjaamaan mallia pois ei-toivottuista käyttäytymisestä käyttämällä hylättyjä vastauksia negatiivisina esimerkkeinä. Tämä prosessi kattaa chat-keskusteluiden, päättelytehtävien ja vastuullisen AI (RAI) -pyrkimyksiä, varmistamalla, että Phi-3 Mini noudattaa Microsoftin eettisiä ja luotettavien AI-periaatteita.
Jotta turvallisuusprofiilia voitaisiin edelleen parantaa, Phi-3 Mini on käynyt läpi laajan punainen tiimin ja automaattisen testauksen kymmenien RAI-haittaluokkien yli. Microsoftin itsenäinen punainen tiimi tarkasteli mallia iteratiivisesti, tunnistamalla parantamisen kohteita, jotka käsiteltiin lisäkoulutuksella ja uudelleen koulutuksella.
Tämä monialainen lähestymistapa on merkittävästi vähentänyt haitallisten vastausten, faktuaalisten epätarkkuuksien ja harhautuneiden vastausten määrää, kuten Microsoftin sisäisissä RAI-vertailuissa. Esimerkiksi malli osoittaa alhaisen virheluvun haitallisen sisällön jatkamiselle (0,75 %) ja yhteenvetolle (10 %), sekä alhaisen perusteettoman vastausten määrän (0,603), osoittaen, että sen vastaukset ovat vahvasti juurtuneita annetussa kontekstissa.

Sovellukset ja käyttötarkoitukset

Vaikuttavan suorituskyvyn ja luotettavan turvallisuuden ansiosta Phi-3 Mini on hyvin soveltuvinen laajalle joukolle sovelluksia, erityisesti resurssien rajoittuneissa ympäristöissä ja viiveen määrittelyssä.
Yksi mielenkiintoisimmista näkymistä on älykkäiden virtuaaliavustajien ja keskustelurobottien käyttöönotto suoraan mobiililaitteilla. Toimimalla paikallisesti nämä avustajat voivat tarjota välittömiä vastauksia ilman verkkoyhteyttä, samalla varmistamalla, että arkaluontoiset tiedot säilytetään laitteessa, jolloin voidaan ratkaista tietosuojan vaatimukset.
Phi-3 Minin vahvat päättelykyky tekevät siitä myös arvokkaan apuvälineen koodauksen avuksi ja matemaattisten ongelmanratkaisujen tehtävissä. Kehittäjät ja opiskelijat voivat hyötyä laitteiston omasta koodin täydentämisestä, virheen havainnosta ja selityksistä, jolloin kehitys- ja oppimisprosessit voidaan sujuvoittaa.
Näiden sovellusten lisäksi mallin monikäyttöisyys avaa uusia mahdollisuuksia kielitaidon, tekstien yhteenvetojen ja kysymys-vastaus -tehtävien aloilla. Sen pieni koko ja tehokkuus tekevät siitä houkuttelevan valinnan upottaa AI-ominaisuuksia laajalle joukolle laitteita ja järjestelmiä, älykkäistä kodinkoneista teolliseen automaatioon.

Katse eteenpäin: Phi-3 Small ja Phi-3 Medium

Vaikka Phi-3 Mini on merkittävä saavutus omassa oikeudessaan, Microsoftilla on suurempia suunnitelmia Phi-3-perheelle. Yhtiö on jo esitellyt kaksi suurempaa mallia, Phi-3 Small (7 miljardia parametriä) ja Phi-3 Medium (14 miljardia parametriä), jotka odotetaan rikkovan kompaktien kielimallien suorituskyvyn rajoja.
Phi-3 Small hyödyntää edistyneempää tokenisaattoria (tiktoken) ja ryhmiteltyä kyselyhuomiota sekä uudenlaista blocksparse-huomiokerrosta optimoidakseen muistijäljen samalla, kun se ylläpitää pitkän kontekstin hakutoimintoa. Se sisältää myös 10 %:n enemmän monikielista dataa, jolloin se parantaa kielitaidon ymmärtämistä ja generoimista useilla kielillä.
Phi-3 Medium edustaa merkittävää askelta ylöspäin mittakaavassa, 40 kerroksella, 40 huomion kohteella ja upottamisen ulottuvuudella 5 120. Vaikka Microsoft toteaa, että jotkut vertailuarvot saattavat edellyttää koulutusaineiston sekoituksen edelleen hienosäätöä, alkutulokset ovat lupaavia, ja ne osoittavat merkittäviä parannuksia Phi-3 Smalliin nähden tehtävissä kuten MMLU, TriviaQA ja HumanEval.

Rajoitukset ja tulevaisuuden suunta

Vaikka Phi-3 Mini on vaikuttava, se ei ole täysin ilman rajoituksia. Yksi merkittävimmistä heikkouksista on sen suhteellisen rajoitettu kyky tallentaa faktatietoa, kuten sen alempi suorituskyky TriviaQA-vertailuissa osoittaa.
Microsoft uskoo kuitenkin, että tämä rajoitus voidaan lieventää täydentämällä mallia hakukoneominaisuuksilla, jolloin se voi hakea ja päättelyä relevanttia tietoa tarpeen mukaan. Tämä lähestymistapa on esitetty Hugging Face Chat-UI:ssa, jossa Phi-3 Mini voi hyödyntää hakua parantaakseen vastauksiaan.
Toinen parantamisen kohde on mallin monikielinen kyky. Vaikka Phi-3 Small on tehnyt alkuaskelia monikielisen datan sisällyttämisellä, on vielä työtä tehtävissä täysin avaamaan näiden kompaktien mallien potentiaalia monikielisissä sovelluksissa.
Microsoft on sitoutunut jatkuvasti edistämään Phi-malliperhettä, ratkaisemalla heikkouksia ja laajentamalla niiden kykyjä. Tämä voi vaatia koulutusdatan ja -menetelmien edelleen hienosäätöä sekä uusien arkkitehtuurien ja tekniikoiden tutkimista, jotka on suunniteltu nimenomaan kompakteille, suorituskykyisille kielimalleille.

Johtopäätös

Microsoftin Phi-3 Mini edustaa merkittävää askelta edistäämään edistyneiden AI-ominaisuuksien demokratisointia. Tarjoamalla huipputason suorituskyvyn kompaktissa, resurssitehokkaassa paketissa se avaa uusia mahdollisuuksia älykkäille laitteiden omille kokemuksille laajalla joukolla sovelluksia.
Mallin innovatiivinen koulutuslähestymistapa, joka korostaa korkealaatuista, päättelytiheää dataa ylivoimaisen laskentatehon sijaan, on osoittautunut pelinmuuttajaksi, mahdollistaen Phi-3 Minille lyödä yli painoluokkansa. Yhdistettynä sen luotettaviin turvallisuusjärjestelmiin ja jatkuvaan kehitykseen Phi-3-malliperhe on valmis vaikuttamaan älykkäiden järjestelmien tulevaisuuteen, tekemällä AI:sta saatavampaa, tehokkaampaa ja luotettavampaa kuin koskaan aiemmin.
Kun teknologia-alan edelläkävijät jatkavat AI-rajojen työntämistä, Microsoftin sitoutuminen kevyisiin, suorituskykyisiin malleihin kuten Phi-3 Mini edustaa raikasta poikkeusta perinteisestä “suurempi on parempi” -viisaudosta. Osoittamalla, ettei koko ole kaikki, Phi-3 Mini voi inspiroida uuden aallon innovaatioita, jotka keskittyvät maksimoimaan AI:n arvoa ja vaikutusta älykkään datan kuratoinnin, tarkoituksenmukaisen mallin suunnittelun ja vastuullisten kehityskäytäntöjen kautta.

Olen viettänyt viimeiset viisi vuotta uppoutumassa kiinnostavaan koneoppimisen ja syväoppimisen maailmaan. Intohimoni ja asiantuntemukseni ovat johtaneet minun osallistumiseen yli 50:een monipuoliseen ohjelmistosuunnitteluhankkeeseen, joissa on erityisesti painottunut tekoäly/ML. Jatkuva uteliaisuuteni on myös ohjannut minua kohti luonnollisen kielen prosessointia, alaa jota haluan tutkia tarkemmin.