Artificiell intelligens

Metas Llama 3.2: Omdefinierar generativ AI med öppen källkod med funktioner på enheten och multimodala

publicerade

10 månader sedan

September 27, 2024

Dr Tehseen Zia

Metas senaste lansering av Llama 3.2, den senaste iterationen i sin Llama-serie av stora språkmodeller, är en betydande utveckling i utvecklingen av generativa AI-ekosystem med öppen källkod. Denna uppgradering utökar Llamas möjligheter i två dimensioner. Å ena sidan tillåter Llama 3.2 bearbetning av multimodal data – som integrerar bilder, text och mer – vilket gör avancerade AI-funktioner mer tillgängliga för en bredare publik. Å andra sidan breddar den sin distributionspotential på avancerade enheter, vilket skapar spännande möjligheter för AI-applikationer på enheten i realtid. I den här artikeln kommer vi att utforska denna utveckling och dess implikationer för framtiden för AI-distribution.

Utvecklingen av lama

Metas resa med lama började i början av 2023, och under den tiden har serien upplevt explosiv tillväxt och adoption. Från och med Llama 1, som var begränsad till icke-kommersiell användning och endast tillgänglig för utvalda forskningsinstitutioner, övergick serien till sfären med öppen källkod med lanseringen av Llama 2 2023. Lanseringen av Llama 3.1 tidigare i år var ett stort steg framåt i utvecklingen, då den introducerade den största modellen med öppen källkod med 405 miljarder parametrar, som antingen är i nivå med eller överträffar sina egna konkurrenter. Den senaste versionen, Llama 3.2, tar detta ett steg längre genom att introducera nya lätta och visionsfokuserade modeller, vilket gör AI på enheten och multimodal funktioner mer tillgängliga. Metas engagemang för öppenhet och modifierbarhet har gjort det möjligt för Llama att bli en ledande modell i open source-gemenskapen. Företaget tror att genom att vara engagerade i transparens och tillgänglighet kan vi mer effektivt driva AI-innovation framåt – inte bara för utvecklare och företag, utan för alla runt om i världen.

Vi presenterar Llama 3.2

Llama 3.2 är den senaste versionen av Metas Llama-serie inklusive en mängd olika språkmodeller utformade för att möta olika krav. De största och medelstora modellerna, inklusive 90 och 11 miljarder parametrar, är designade för att hantera bearbetning av multimodal data inklusive text och bilder. Dessa modeller kan effektivt tolka diagram, grafer och andra former av visuell data, vilket gör dem lämpliga för att bygga applikationer inom områden som datorseende, dokumentanalys och augmented reality-verktyg. De lätta modellerna, med 1 miljard och 3 miljarder parametrar, är anpassade specifikt för mobila enheter. Dessa endast textmodeller utmärker sig i flerspråkig textgenerering och verktygsanropsfunktioner, vilket gör dem mycket effektiva för uppgifter som hämtningsförstärkt generering, sammanfattning och skapandet av personliga agentbaserade applikationer på edge-enheter.

Betydelsen av lama 3.2

Denna version av Llama 3.2 kan erkännas för sina framsteg inom två nyckelområden.

En ny era av multimodal AI

Llama 3.2 är Metas första modell med öppen källkod som rymmer både text- och bildbehandlingsmöjligheter. Detta är en betydande utveckling i utvecklingen av generativ AI med öppen källkod eftersom den gör det möjligt för modellen att analysera och svara på visuella indata tillsammans med textdata. Till exempel kan användare nu ladda upp bilder och få detaljerade analyser eller modifieringar baserade på naturliga språkuppmaningar, som att identifiera objekt eller generera bildtexter. Mark Zuckerberg betonade denna förmåga under lanseringen och sa att Llama 3.2 är designad för att "möjliggöra många intressanta applikationer som kräver visuell förståelse". Denna integration breddar omfattningen av lama för industrier som är beroende av multimodal information, inklusive detaljhandel, hälsovård, utbildning och underhållning.

Funktionalitet på enheten för tillgänglighet

En av de utmärkande funktionerna i Llama 3.2 är dess optimering för driftsättning på enheten, särskilt i mobila miljöer. Modellens lätta versioner med 1 miljard och 3 miljarder parametrar, är speciellt designade för att köras på smartphones och andra edge-enheter som drivs av Qualcomm och MediaTek hårdvara. Det här verktyget låter utvecklare skapa applikationer utan behov av omfattande beräkningsresurser. Dessutom utmärker sig dessa modellversioner i flerspråkig textbehandling och stöder en längre kontextlängd på 128K tokens, vilket gör det möjligt för användare att utveckla naturliga språkbehandlingsapplikationer på sina modersmål. Dessutom har dessa modeller funktioner för verktygsanrop, vilket gör att användare kan engagera sig i agentapplikationer, som att hantera kalenderinbjudningar och planera resor direkt på sina enheter.

Möjligheten att distribuera AI-modeller lokalt gör att AI med öppen källkod kan övervinna utmaningarna som är förknippade med cloud computing, inklusive latensproblem, säkerhetsrisker, höga driftskostnader och beroende av internetanslutning. Detta framsteg har potential att förändra branscher som hälsovård, utbildning och logistik, vilket gör att de kan använda AI utan begränsningar av molninfrastruktur eller integritetsproblem, och i realtidssituationer. Detta öppnar också dörren för AI att nå regioner med begränsade anslutningsmöjligheter, vilket demokratiserar tillgången till spjutspetsteknologi.

Konkurrensfördel

Meta rapporterar att Llama 3.2 har presterat konkurrenskraftigt mot ledande modeller från OpenAI och Anthropic när det gäller prestanda. De hävdar att Llama 3.2 överträffar rivaler som Claude 3-Haiku och GPT-4o-mini i olika benchmarks, inklusive instruktionsföljande och innehållssammanfattningsuppgifter. Denna konkurrensfördel är avgörande för Meta eftersom den syftar till att säkerställa att AI med öppen källkod förblir i nivå med proprietära modeller inom det snabbt växande området för generativ AI.

Lama Stack: Simplifying AI Deployment

En av de viktigaste aspekterna av Llama 3.2-versionen är introduktionen av Llama Stack. Den här verktygssviten gör det enklare för utvecklare att arbeta med Llama-modeller i olika miljöer, inklusive konfigurationer med en nod, på plats, moln och på enheten. Llama Stack inkluderar stöd för RAG och verktygsaktiverade applikationer, vilket ger ett flexibelt, heltäckande ramverk för att distribuera generativa AI-modeller. Genom att förenkla implementeringsprocessen gör Meta det möjligt för utvecklare att enkelt integrera Llama-modeller i sina applikationer, oavsett om det är för moln-, mobil- eller skrivbordsmiljöer.

The Bottom Line

Meta's Llama 3.2 är ett viktigt ögonblick i utvecklingen av generativ AI med öppen källkod, som sätter nya riktmärken för tillgänglighet, funktionalitet och mångsidighet. Med sina funktioner på enheten och multimodala bearbetning öppnar denna modell transformativa möjligheter över branscher, från hälsovård till utbildning, samtidigt som den tar itu med kritiska problem som integritet, latens och begränsningar i infrastrukturen. Genom att ge utvecklare möjlighet att distribuera avancerad AI lokalt och effektivt, utökar Llama 3.2 inte bara omfattningen av AI-applikationer utan demokratiserar också tillgången till spjutspetsteknik på global skala.

Relaterade ämnen:Lama Lama 3.2

Strax

Framtiden för AI inom kvalitetssäkring

Missa inte

AI-priskriget: Hur lägre kostnader gör AI mer tillgänglig

Dr Tehseen Zia

Dr. Tehseen Zia är fast docent vid COMSATS University Islamabad och har en doktorsexamen i AI från Wiens tekniska universitet, Österrike. Han är specialiserad på artificiell intelligens, maskininlärning, datavetenskap och datorseende och har gjort betydande bidrag med publikationer i välrenommerade vetenskapliga tidskrifter. Dr. Tehseen har också lett olika industriella projekt som huvudutredare och fungerat som AI-konsult.