Connect with us

Innanför Microsofts Phi-3 Mini: En lÀttviktig AI-modell som slÄr över sin vikt

Artificiell intelligens

Innanför Microsofts Phi-3 Mini: En lÀttviktig AI-modell som slÄr över sin vikt

mm
Phi-3 : A Highly Capable Language Model Locally on Your Phone
Microsoft har nyligen avslöjat sin senaste lättviktiga språkmodell som kallas Phi-3 Mini, och startar en trio av kompakta AI-modeller som är utformade för att leverera toppmoderna prestationer samtidigt som de är tillräckligt små för att köras effektivt på enheter med begränsade beräkningsresurser. Med bara 3,8 miljarder parametrar är Phi-3 Mini en bråkdel av storleken på AI-jättar som GPT-4, men den lovar att matcha deras förmågor på många nyckelområden.
Utvecklingen av Phi-3 Mini representerar en betydande milstolpe i strävan att demokratisera avancerade AI-förmågor genom att göra dem tillgängliga på en bredare skala av hårdvara. Dess lilla fotavtryck gör att den kan distribueras lokalt på smartphones, surfplattor och andra edge-enheter, och övervinner därmed latens- och sekretessproblem som är förknippade med molnbaserade modeller. Detta öppnar upp nya möjligheter för intelligenta on-device-upplevelser inom olika områden, från virtuella assistenter och konversations-AI till kodassistenter och språkförståelseuppgifter.
4-bit quantized phi-3-mini som körs nativt pÄ en iPhone
4-bit quantized phi-3-mini som körs nativt på en iPhone

Under huven: Arkitektur och utbildning

Till sin kärna är Phi-3 Mini en transformer-dekodarmodell byggd på en liknande arkitektur som den öppen källkodsmodellen Llama-2. Den har 32 lager, 3072 dolda dimensioner och 32 uppmärksamhetsrubriker, med en standardkontextlängd på 4 000 token. Microsoft har också introducerat en lång kontextversion som kallas Phi-3 Mini-128K, som utökar kontextlängden till hela 128 000 token med hjälp av tekniker som LongRope.
Vad som särskiljer Phi-3 Mini är dess utbildningsmetod. Istället för att enbart förlita sig på den brutala kraften från enorma datamängder och beräkningskraft, har Microsoft fokuserat på att kurera en högkvalitativ, resonemangstät utbildningsdatamängd. Denna datamängd består av kraftigt filterad webbdata, samt syntetisk data som genererats av större språkmodeller.
Utbildningsprocessen följer en tvåfasansats. I den första fasen exponeras modellen för en mångfaldig mängd webbkällor som syftar till att lära den allmänna kunskap och språkförståelse. Den andra fasen kombinerar ännu mer kraftigt filterad webbdata med syntetisk data som är utformad för att förmedla logiskt resonemang och nischdomänexpertis.
Microsoft kallar denna ansats för “dataoptimalt läge”, ett avsteg från den traditionella “beräkningsoptimala regimen” eller “överträningsregimen” som används av många stora språkmodeller. Målet är att kalibrera utbildningsdatat för att matcha modellens skala, och ge rätt nivå av kunskap och resonemangsförmåga, samtidigt som det lämnar tillräcklig kapacitet för andra förmågor.

Kvaliteten pÄ de nya Phi-3-modellerna, mÀtt som prestanda pÄ Massive Multitask Language Understanding (MMLU)-benchmark
Kvaliteten på de nya Phi-3-modellerna, mätt som prestanda på Massive Multitask Language Understanding (MMLU)-benchmark

Denna datacentrerade ansats har gett utdelning, eftersom Phi-3 Mini uppnår anmärkningsvärd prestanda på en mängd olika akademiska benchmark, ofta rivaliserande eller överträffande mycket större modeller. Till exempel uppnår den 69 % på MMLU-benchmark för multitaskinlärning och förståelse, och 8,38 på MT-bench för matematiskt resonemang – resultat som är jämförbara med modeller som Mixtral 8x7B och GPT-3.5.

Säkerhet och robusthet

Tillsammans med sin imponerande prestanda har Microsoft lagt stor vikt vid säkerhet och robusthet i utvecklingen av Phi-3 Mini. Modellen har genomgått en rigorös post-utbildningsprocess som involverar övervakad finjustering (SFT) och direkt preferensoptimering (DPO).
SFT-stadiet utnyttjar högt kuraterad data över olika domäner, inklusive matematik, kodning, resonemang, konversation, modellidentitet och säkerhet. Detta hjälper till att förstärka modellens förmågor inom dessa områden, samtidigt som det inpräglar en stark känsla av identitet och etiskt beteende.
DPO-stadiet, å andra sidan, fokuserar på att styra modellen bort från oönskade beteenden genom att använda avvisade svar som negativa exempel. Denna process omfattar chat-formatdata, resonemangsuppgifter och ansvarsfull AI (RAI)-insatser, som säkerställer att Phi-3 Mini följer Microsofts principer för etisk och pålitlig AI.
För att ytterligare förbättra sin säkerhetsprofil har Phi-3 Mini utsatts för omfattande rött lag-testning och automatiserad testning över dussintals RAI-skadekategorier. Ett oberoende rödt lag på Microsoft har iterativt undersökt modellen, identifierat områden för förbättring, som sedan åtgärdats genom ytterligare kuraterad data och omträning.
Denna flerdelade ansats har betydligt minskat förekomsten av skadliga svar, faktamässiga ofullkomligheter och fördomar, som visas av Microsofts interna RAI-benchmark. Till exempel uppvisar modellen låga defektrater för skadligt innehåll (0,75 %) och sammanfattning (10 %), samt en låg nivå av ogrundadhet (0,603), vilket indikerar att dess svar är fast rotade i den givna kontexten.

Tillämpningar och användningsfall

Med sin imponerande prestanda och robusta säkerhetsåtgärder är Phi-3 Mini väl lämpad för en mängd olika tillämpningar, särskilt i resursbegränsade miljöer och latensbundna scenarier.
En av de mest spännande möjligheterna är distributionen av intelligenta virtuella assistenter och konversations-AI direkt på mobila enheter. Genom att köras lokalt kan dessa assistenter ge omedelbara svar utan behov av en nätverksanslutning, samtidigt som de säkerställer att känslig data förblir på enheten, vilket hanterar sekretessproblem.
Phi-3 Minis starka resonemangsförmåga gör den också till en värdefull tillgång för kodassistans och matematiskt problem解决ande. Utvecklare och studenter kan dra nytta av on-device-kodkomplettering, felsökning och förklaringar, vilket rationaliserar utvecklings- och inlärningsprocesserna.
Förutom dessa tillämpningar öppnar modellens flexibilitet upp möjligheter inom områden som språkförståelse, textsammanfattning och frågesvar. Dess lilla storlek och effektivitet gör den till ett attraktivt val för att integrera AI-förmågor i en mängd olika enheter och system, från smarta hemapplikationer till industriell automation.

Att se framåt: Phi-3 Small och Phi-3 Medium

Medan Phi-3 Mini är en anmärkningsvärd prestation i sig, har Microsoft ännu större planer för Phi-3-familjen. Företaget har redan visat upp två större modeller, Phi-3 Small (7 miljarder parametrar) och Phi-3 Medium (14 miljarder parametrar), som båda förväntas pressa gränserna för prestanda för kompakta språkmodeller.
Phi-3 Small, till exempel, utnyttjar en mer avancerad tokenisator (tiktoken) och en grupperad frågeuppmärksamhetsmekanism, tillsammans med ett nytt blocksparse uppmärksamhetslager, för att optimera dess minnesavtryck samtidigt som den upprätthåller lång kontextåtervinning. Den omfattar också ytterligare 10 % multilingual data, vilket förbättrar dess förmågor inom språkförståelse och generering över flera språk.
Phi-3 Medium, å andra sidan, representerar ett betydande steg upp i skala, med 40 lager, 40 uppmärksamhetsrubriker och en inbäddningsdimension på 5 120. Medan Microsoft noterar att vissa benchmark kan kräva ytterligare förfining av utbildningsdatamixen för att fullt ut kunna utnyttja denna ökade kapacitet, är de initiala resultaten lovande, med betydande förbättringar över Phi-3 Small på uppgifter som MMLU, TriviaQA och HumanEval.

Begränsningar och framtida riktningar

Trots sin imponerande förmåga är Phi-3 Mini, liksom alla språkmodeller, inte utan begränsningar. En av de mest anmärkningsvärda svagheterna är dess relativt begränsade kapacitet för att lagra faktisk kunskap, som visas av dess lägre prestanda på benchmark som TriviaQA.
Men Microsoft tror att denna begränsning kan mildras genom att komplettera modellen med sökmotorförmågor, vilket gör det möjligt för den att hämta och resonera över relevant information på begäran. Denna ansats demonstreras i Hugging Face Chat-UI, där Phi-3 Mini kan utnyttja sökning för att förbättra sina svar.
En annan området för förbättring är modellens multilingvala förmågor. Medan Phi-3 Small har tagit initiala steg genom att införa ytterligare multilingual data, behövs ytterligare arbete för att fullt ut kunna utnyttja potentialen för dessa kompakta modeller för cross-linguala tillämpningar.
Att se framåt är Microsoft engagerat i att kontinuerligt förbättra Phi-familjen av modeller, och hantera deras begränsningar och utöka deras förmågor. Detta kan innefatta ytterligare förfining av utbildningsdata och metodik, samt utforskning av nya arkitekturer och tekniker som är specifikt utformade för kompakta, högpresterande språkmodeller.

Slutsats

Microsofts Phi-3 Mini representerar ett betydande steg framåt i demokratiseringen av avancerade AI-förmågor. Genom att leverera toppmoderna prestationer i en kompakta, resurseffektiv paket, öppnar den upp nya möjligheter för intelligenta on-device-upplevelser över en mängd olika tillämpningar.
Modellens innovativa utbildningsansats, som betonar högkvalitativ, resonemangstät data över ren beräkningskraft, har visat sig vara en vändpunkt, och gör det möjligt för Phi-3 Mini att slå över sin viktklass. I kombination med dess robusta säkerhetsåtgärder och pågående utvecklingsinsatser, är Phi-3-familjen av modeller väl positionerad för att spela en avgörande roll i formandet av framtiden för intelligenta system, och göra AI mer tillgänglig, effektiv och pålitlig än någonsin tidigare.
Medan tech-industrin fortsätter att pressa gränserna för vad som är möjligt med AI, representerar Microsofts engagemang för lättviktiga, högpresterande modeller som Phi-3 Mini en uppfriskande avvikelse från den konventionella visdomen att “större är bättre”. Genom att visa att storlek inte är allt, har Phi-3 Mini potentialen att inspirera en ny våg av innovation som fokuserar på att maximera värdet och påverkan av AI genom intelligent datakurering, genomtänkt modellutformning och ansvarsfulla utvecklingspraxis.

Jag har under de senaste fem Ären dykt ner i den fascinerande vÀrlden av Machine Learning och Deep Learning. Min passion och expertis har lett mig till att bidra till över 50 olika mjukvaruutvecklingsprojekt, med sÀrskild fokus pÄ AI/ML. Min pÄgÄende nyfikenhet har ocksÄ dragit mig mot Natural Language Processing, ett omrÄde som jag Àr angelÀgen om att utforska vidare.