Tekoäly

Meta's Llama 3.2: avoimen lähdekoodin generatiivisen tekoälyn uudelleenmäärittely laitteella ja multimodaalisilla ominaisuuksilla

Julkaistu

10 kuukautta sitten

Syyskuu 27, 2024

Tohtori Tehseen Zia

Metan äskettäin julkaisema Llama 3.2, viimeisin iteraatio Llama-sarjassa suuret kielimallit, on merkittävä kehitysaskel avoimen lähdekoodin generatiivisen tekoälyekosysteemin kehityksessä. Tämä päivitys laajentaa Llaman ominaisuuksia kahdessa ulottuvuudessa. Toisaalta Llama 3.2 mahdollistaa multimodaalisen datan käsittelyn – integroimalla kuvia, tekstiä ja paljon muuta – tehden edistyneistä tekoälyominaisuuksista entistä laajemman yleisön ulottuvilla. Toisaalta se laajentaa käyttöönottopotentiaaliaan reunalaitteissa, mikä luo jännittäviä mahdollisuuksia reaaliaikaisille, laitteessa oleville tekoälysovelluksille. Tässä artikkelissa tutkimme tätä kehitystä ja sen vaikutuksia tekoälyn käyttöönoton tulevaisuuteen.

Laman evoluutio

Metan matka Llaman kanssa alkoi vuoden 2023 alussa, ja tuona aikana sarja on kokenut räjähdysmäisen kasvun ja käyttöönoton. Alkaen Llama 1:stä, joka rajoittui ei-kaupalliseen käyttöön ja oli vain valikoitujen tutkimuslaitosten saatavilla, sarja siirtyi avoimeen lähdekoodiin Llama 2:n julkaisun myötä vuonna 2023. Llama 3.1:n julkaisu aiemmin tänä vuonna oli suuri askel. Evoluutiossa eteenpäin, sillä se esitteli suurimman avoimen lähdekoodin mallin 405 miljardilla parametrilla, joka on joko kilpailijoidensa tasolla tai ylittää sen. Uusin julkaisu, Llama 3.2, vie tätä askelta pidemmälle esittelemällä uusia kevyitä ja näkökeskeisiä malleja, jotka tekevät laitteessa AI- ja multimodaalinen toiminnot helpommin saavutettavissa. Metan omistautuminen avoimuudelle ja muunneltavuudelle on mahdollistanut Llaman olevan johtava malli avoimen lähdekoodin yhteisössä. Yritys uskoo, että pysymällä sitoutuneena läpinäkyvyyteen ja saavutettavuuteen voimme tehokkaammin viedä tekoälyinnovaatioita eteenpäin – ei vain kehittäjille ja yrityksille, vaan kaikille ympäri maailmaa.

Esittelyssä Llama 3.2

Llama 3.2 on uusin versio Metan Llama-sarjasta, joka sisältää useita kielimalleja, jotka on suunniteltu vastaamaan erilaisiin vaatimuksiin. Suurimmat ja keskikokoiset mallit, mukaan lukien 90 ja 11 miljardia parametria, on suunniteltu käsittelemään multimodaalista dataa, mukaan lukien tekstiä ja kuvia. Nämä mallit voivat tulkita tehokkaasti kaavioita, kaavioita ja muita visuaalisen datan muotoja, mikä tekee niistä sopivia sovellusten rakentamiseen sellaisilla aloilla kuin tietokonenäkö, dokumenttianalyysi ja lisätyn todellisuuden työkalut. Kevyet mallit, joissa on 1 miljardi ja 3 miljardia parametria, on suunniteltu erityisesti mobiililaitteisiin. Nämä vain tekstiä sisältävät mallit ovat erinomaisia monikielisen tekstin luonti- ja työkalukutsuominaisuuksissa, mikä tekee niistä erittäin tehokkaita tehtävissä, kuten haulla lisätty luonti, yhteenveto ja personoitujen agenttipohjaisten sovellusten luominen reunalaitteisiin.

Laaman merkitys 3.2

Tämä Llama 3.2:n julkaisu voidaan tunnistaa edistyksistä kahdella avainalueella.

Multimodaalisen tekoälyn uusi aikakausi

Llama 3.2 on Metan ensimmäinen avoimen lähdekoodin malli, jossa on sekä tekstin että kuvankäsittelyominaisuudet. Tämä on merkittävä kehitysaskel avoimen lähdekoodin generatiivisen tekoälyn kehityksessä, koska sen avulla malli voi analysoida ja vastata visuaalisiin syötteisiin tekstidatan ohella. Käyttäjät voivat nyt esimerkiksi ladata kuvia ja vastaanottaa yksityiskohtaisia analyyseja tai muutoksia, jotka perustuvat luonnollisen kielen kehotteisiin, kuten objektien tunnistamiseen tai kuvatekstien luomiseen. Mark Zuckerberg korosti tätä kykyä julkaisun aikana ja totesi, että Llama 3.2 on suunniteltu "mahdollistamaan monia mielenkiintoisia sovelluksia, jotka vaativat visuaalista ymmärrystä". Tämä integraatio laajentaa Llaman soveltamisalaa multimodaalista tietoa tarvitseville aloille, mukaan lukien vähittäiskauppa, terveydenhuolto, koulutus ja viihde.

Laitteen toiminnallisuus käytettävyyttä varten

Yksi Llama 3.2:n erottuvista ominaisuuksista on sen optimointi laitteella tapahtuvaa käyttöönottoa varten, erityisesti mobiiliympäristöissä. Mallin kevyet versiot, joissa on 1 miljardi ja 3 miljardia parametria, on erityisesti suunniteltu toimimaan älypuhelimissa ja muissa Qualcomm- ja MediaTek-laitteistoilla toimivissa reunalaitteissa. Tämän apuohjelman avulla kehittäjät voivat luoda sovelluksia ilman laajoja laskentaresursseja. Lisäksi nämä malliversiot ovat loistavia monikielisessä tekstinkäsittelyssä ja tukevat pidempää 128 XNUMX tokenin kontekstin pituutta, jolloin käyttäjät voivat kehittää luonnollisen kielen käsittelysovelluksia omalla äidinkielellään. Lisäksi näissä malleissa on työkalukutsuominaisuudet, joiden avulla käyttäjät voivat käyttää agenttisovelluksia, kuten hallita kalenterikutsuja ja suunnitella matkoja suoraan laitteillaan.

Mahdollisuus ottaa tekoälymalleja käyttöön paikallisesti mahdollistaa avoimen lähdekoodin tekoälyn voittamaan pilvilaskentaan liittyvät haasteet, kuten viiveongelmat, tietoturvariskit, korkeat käyttökustannukset ja riippuvuuden Internet-yhteydestä. Tämä edistysaskel voi muuttaa terveydenhuollon, koulutuksen ja logistiikan kaltaisia toimialoja, jolloin ne voivat käyttää tekoälyä ilman pilviinfrastruktuurin tai yksityisyyden rajoituksia ja reaaliaikaisissa tilanteissa. Tämä myös avaa tekoälylle oven tavoittaa alueita, joilla on rajoitettu yhteys, mikä demokratisoi pääsyn huipputeknologiaan.

Kilpailuetu

Meta raportoi, että Llama 3.2 on suoriutunut suorituskyvyltään kilpailukykyisesti OpenAI:n ja Anthropicin johtaviin malleihin verrattuna. He väittävät, että Llama 3.2 päihittää kilpailijansa, kuten Claude 3-Haiku ja GPT-4o-mini, useissa vertailuissa, mukaan lukien ohjeiden seuraaminen ja sisällön yhteenvetotehtävät. Tämä kilpailuetu on Metalle elintärkeä, koska se pyrkii varmistamaan, että avoimen lähdekoodin tekoäly pysyy samanlaisena patentoitujen mallien kanssa nopeasti kehittyvällä generatiivisen tekoälyn alalla.

Llama Stack: Tekoälyn käyttöönoton yksinkertaistaminen

Yksi Llama 3.2 -julkaisun tärkeimmistä osista on Llama Stackin esittely. Tämä työkalupaketti helpottaa kehittäjien työskentelyä Llama-mallien kanssa eri ympäristöissä, mukaan lukien yhden solmun, paikallisen, pilvi- ja laitteen asennukset. Llama Stack sisältää tuen RAG:lle ja työkaluja tukeville sovelluksille, mikä tarjoaa joustavan ja kattavan kehyksen luovien tekoälymallien käyttöönotolle. Yksinkertaistamalla käyttöönottoprosessia Meta antaa kehittäjille mahdollisuuden integroida Llama-malleja vaivattomasti sovelluksiinsa, olipa kyseessä sitten pilvi-, mobiili- tai työpöytäympäristö.

Bottom Line

Meta's Lama 3.2 on tärkeä hetki avoimen lähdekoodin luovan tekoälyn kehityksessä, ja se asettaa uusia mittareita saavutettavuudelle, toimivuudelle ja monipuolisuudelle. Laitteessa olevien ominaisuuksiensa ja multimodaalisen käsittelynsä ansiosta tämä malli avaa muutosmahdollisuuksia eri aloilla terveydenhoidosta koulutukseen ja ratkaisee kriittiset huolenaiheet, kuten yksityisyyden, latenssin ja infrastruktuurin rajoitukset. Antamalla kehittäjille mahdollisuuden ottaa kehittynyt tekoäly käyttöön paikallisesti ja tehokkaasti, Llama 3.2 ei ainoastaan laajentaa tekoälysovellusten laajuutta, vaan myös demokratisoi pääsyn huipputeknologioihin maailmanlaajuisesti.

Liittyvät aiheet:liekki Laama 3.2

Seuraavaksi

Tekoälyn tulevaisuus laadunvarmistuksessa

Älä missaa

Tekoälyn hintasota: Kuinka alhaisemmat kustannukset tekevät tekoälystä helpommin saavutettavissa

Tohtori Tehseen Zia

Dr. Tehseen Zia on vakinainen apulaisprofessori COMSATS University Islamabadissa, ja hänellä on tekoälyn tohtori Wienin teknillisestä yliopistosta, Itävallasta. Hän on erikoistunut tekoälyyn, koneoppimiseen, tietotieteeseen ja tietokonenäköön, ja hän on tehnyt merkittävän panoksen julkaisuilla arvostetuissa tieteellisissä aikakauslehdissä. Dr. Tehseen on myös johtanut erilaisia teollisia projekteja päätutkijana ja toiminut tekoälykonsulttina.