stub Inde i Microsofts Phi-3 Mini: En letvægts AI-model, der slår over sin vægt - Unite.AI
Følg os

Kunstig intelligens

Inde i Microsofts Phi-3 Mini: En let AI-model, der slår over sin vægt

mm

Udgivet

 on

Phi-3: En meget dygtig sprogmodel lokalt på din telefon

Microsoft har for nylig afsløret sin seneste letvægtssprogmodel kaldet Phi-3 Mini, der kickstarter en trio af kompakte AI-modeller, der er designet til at levere den nyeste ydeevne, samtidig med at de er små nok til at køre effektivt på enheder med begrænsede computerressourcer. Med blot 3.8 milliarder parametre er Phi-3 Mini en brøkdel af størrelsen af ​​AI-giganter som GPT-4, men den lover at matche deres muligheder på mange nøgleområder.

Udviklingen af Phi-3 Mini repræsenterer en væsentlig milepæl i stræben efter at demokratisere avancerede AI-kapaciteter ved at gøre dem tilgængelige på en bredere vifte af hardware. Dens lille fodaftryk gør det muligt at implementere den lokalt på smartphones, tablets og andre edge-enheder, hvilket overvinder latens- og privatlivsproblemerne forbundet med cloud-baserede modeller. Dette åbner op for nye muligheder for intelligente on-device-oplevelser på tværs af forskellige domæner, fra virtuelle assistenter og samtale-AI til kodningsassistenter og sprogforståelsesopgaver.

4-bit kvantiseret phi-3-mini, der kører indbygget på en iPhone
4-bit kvantiseret phi-3-mini kører indbygget på en iPhone

Under the Hood: Arkitektur og træning

I sin kerne er Phi-3 Mini en transformer-dekodermodel bygget på en lignende arkitektur som open source Llama-2 model. Den har 32 lag, 3072 skjulte dimensioner og 32 opmærksomhedshoveder med en standard kontekstlængde på 4,000 tokens. Microsoft har også introduceret en lang kontekstversion kaldet Phi-3 Mini-128K, som udvider kontekstlængden til imponerende 128,000 tokens ved hjælp af teknikker som LongRope.

Det, der dog adskiller Phi-3 Mini, er dens træningsmetode. I stedet for udelukkende at stole på den brutale kraft af massive datasæt og computerkraft, har Microsoft fokuseret på at sammensætte et træningsdatasæt af høj kvalitet og ræsonnement. Disse data er sammensat af stærkt filtrerede webdata samt syntetiske data genereret af større sprogmodeller.

Uddannelsesprocessen følger en to-faset tilgang. I første fase eksponeres modellen for en bred vifte af webkilder, der har til formål at lære den almen viden og sprogforståelse. Den anden fase kombinerer endnu mere stærkt filtrerede webdata med syntetiske data designet til at bibringe logiske ræsonnementfærdigheder og nichedomæneekspertise.

Microsoft omtaler denne tilgang som "det optimale dataregime", en afvigelse fra det traditionelle "beregningsoptimale regime" eller "overtræningsregime", der anvendes af mange store sprogmodeller. Målet er at kalibrere træningsdataene til at matche modellens skala, hvilket giver det rette niveau af viden og ræsonnement, samtidig med at der efterlades tilstrækkelig kapacitet til andre evner.

Kvaliteten af ​​nye Phi-3-modeller, målt ved ydeevne på MMLU-benchmarken (Massive Multitask Language Understanding)
Kvaliteten af ​​nye Phi-3 modeller, som målt ved ydeevne på benchmark for Massive Multitask Language Understanding (MMLU).

Denne datacentrerede tilgang har givet pote, da Phi-3 Mini opnår en bemærkelsesværdig præstation på en lang række akademiske benchmarks, der ofte konkurrerer med eller overgår meget større modeller. For eksempel scorer den 69 % på MMLU-benchmark for multi-task læring og forståelse, og 8.38 på MT-bench for matematisk ræsonnement – ​​resultater, der er på niveau med modeller som Mixtral 8x7B og GPT-3.5.

Sikkerhed og robusthed

Ud over dens imponerende præstation, Microsoft har lagt stor vægt på sikkerhed og robusthed i udviklingen af ​​Phi-3 Mini. Modellen har gennemgået en streng efteruddannelsesproces, der involverer overvåget finjustering (SFT) og direkte præferenceoptimering (DPO).

SFT-stadiet udnytter meget kurerede data på tværs af forskellige domæner, herunder matematik, kodning, ræsonnement, samtale, modelidentitet og sikkerhed. Dette er med til at styrke modellens evner på disse områder, samtidig med at det indgyder en stærk identitetsfølelse og etisk adfærd.

DPO-stadiet fokuserer på den anden side på at styre modellen væk fra uønsket adfærd ved at bruge afviste svar som negative eksempler. Denne proces dækker data i chatformat, begrundelsesopgaver og ansvarlig AI (RAI) indsats, hvilket sikrer, at Phi-3 Mini overholder Microsofts principper om etisk og troværdig AI.

For yderligere at forbedre sin sikkerhedsprofil er Phi-3 Mini blevet udsat for omfattende red-teaming og automatiseret test på tværs af snesevis af RAI-skadekategorier. Et uafhængigt rødt team hos Microsoft undersøgte iterativt modellen og identificerede forbedringsområder, som derefter blev behandlet gennem yderligere kurerede datasæt og genoptræning.

Denne flerstrengede tilgang har væsentligt reduceret forekomsten af ​​skadelige svar, faktuelle unøjagtigheder og skævheder, som demonstreret af Microsofts interne RAI-benchmarks. For eksempel udviser modellen lave defektrater for fortsættelse af skadeligt indhold (0.75 %) og opsummering (10 %) samt en lav grad af ugrundethed (0.603), hvilket indikerer, at dens svar er solidt forankret i den givne kontekst.

Applikationer og brugssager

Med sin imponerende ydeevne og robuste sikkerhedsforanstaltninger er Phi-3 Mini velegnet til en lang række applikationer, især i ressourcebegrænsede miljøer og latency-bundne scenarier.

Et af de mest spændende perspektiver er implementeringen af ​​intelligente virtuelle assistenter og samtale-AI direkte på mobile enheder. Ved at køre lokalt kan disse assistenter give øjeblikkelige svar uden behov for en netværksforbindelse, samtidig med at de sikrer, at følsomme data forbliver på enheden, hvilket imødekommer privatlivsproblemer.

Phi-3 Minis stærke ræsonnementevner gør den også til et værdifuldt aktiv til kodningshjælp og matematisk problemløsning. Udviklere og studerende kan drage fordel af kodefuldførelse på enheden, registrering af fejl og forklaringer, hvilket strømliner udviklings- og læreprocesserne.

Ud over disse applikationer åbner modellens alsidighed muligheder inden for områder som sprogforståelse, tekstresumé og besvarelse af spørgsmål. Dens lille størrelse og effektivitet gør den til et attraktivt valg til at integrere AI-egenskaber i en bred vifte af enheder og systemer, fra smarte husholdningsapparater til industrielle automationssystemer.

Se fremad: Phi-3 Small og Phi-3 Medium

Mens Phi-3 Mini er en bemærkelsesværdig præstation i sig selv, har Microsoft endnu større planer for Phi-3-familien. Virksomheden har allerede set en forhåndsvisning af to større modeller, Phi-3 Small (7 milliarder parametre) og Phi-3 Medium (14 milliarder parametre), som begge forventes at skubbe grænserne for ydeevne for kompakte sprogmodeller.

Phi-3 Small, for eksempel, udnytter en mere avanceret tokenizer (tiktoken) og en opmærksomhedsmekanisme med grupperet forespørgsel, sammen med et nyt blokspare opmærksomhedslag, for at optimere dets hukommelsesfodaftryk og samtidig opretholde lang konteksthentningsydelse. Det inkorporerer også yderligere 10 % af flersprogede data, hvilket forbedrer dets muligheder for sprogforståelse og -generering på tværs af flere sprog.

Phi-3 Medium repræsenterer på den anden side et væsentligt skridt op i skalaen med 40 lag, 40 opmærksomhedshoveder og en indlejringsdimension på 5,120. Selvom Microsoft bemærker, at nogle benchmarks kan kræve yderligere forfining af træningsdatablandingen for fuldt ud at udnytte denne øgede kapacitet, er de første resultater lovende med væsentlige forbedringer i forhold til Phi-3 Small på opgaver som MMLU, TriviaQA og HumanEval.

Begrænsninger og fremtidige anvisninger

På trods af sine imponerende muligheder er Phi-3 Mini, som alle sprogmodeller, ikke uden sine begrænsninger. En af de mest bemærkelsesværdige svagheder er dens relativt begrænsede kapacitet til at lagre faktuel viden, hvilket fremgår af dens lavere ydeevne på benchmarks som TriviaQA.

Microsoft mener dog, at denne begrænsning kan afbødes ved at udvide modellen med søgemaskinefunktioner, så den kan hente og ræsonnere over relevant information on-demand. Denne tilgang er demonstreret i Krammer Face Chat-UI, hvor Phi-3 Mini kan udnytte søgning til at forbedre sine svar.

Et andet område for forbedring er modellens flersprogede muligheder. Selvom Phi-3 Small har taget de første skridt ved at inkorporere yderligere flersprogede data, er der behov for yderligere arbejde for fuldt ud at frigøre potentialet i disse kompakte modeller til tværsprogede applikationer.

Når vi ser fremad, er Microsoft forpligtet til løbende at fremme Phi-familien af ​​modeller, adressere deres begrænsninger og udvide deres muligheder. Dette kan indebære yderligere justeringer af træningsdata og -metoder samt udforskning af nye arkitekturer og teknikker, der er specielt skræddersyet til kompakte, højtydende sprogmodeller.

Konklusion

Microsofts Phi-3 Mini repræsenterer et betydeligt spring fremad i demokratiseringen af ​​avancerede AI-funktioner. Ved at levere state-of-the-art ydeevne i en kompakt, ressourceeffektiv pakke, åbner det op for nye muligheder for intelligente on-device-oplevelser på tværs af en bred vifte af applikationer.

Modellens innovative træningstilgang, som lægger vægt på højkvalitets, ræsonnementtætte data over ren og skær beregningskraft, har vist sig at være en game-changer, hvilket gør det muligt for Phi-3 Mini at slå et godt stykke over sin vægtklasse. Kombineret med sine robuste sikkerhedsforanstaltninger og igangværende udviklingsindsatser er Phi-3-familien af ​​modeller klar til at spille en afgørende rolle i at forme fremtiden for intelligente systemer, hvilket gør AI mere tilgængelig, effektiv og troværdig end nogensinde før.

Mens teknologiindustrien fortsætter med at skubbe grænserne for, hvad der er muligt med AI, repræsenterer Microsofts forpligtelse til lette, højtydende modeller som Phi-3 Mini en forfriskende afvigelse fra den konventionelle visdom om "større er bedre." Ved at demonstrere, at størrelse ikke er alt, har Phi-3 Mini potentialet til at inspirere en ny bølge af innovation, der fokuserer på at maksimere værdien og virkningen af ​​AI gennem intelligent datakurering, gennemtænkt modeldesign og ansvarlig udviklingspraksis.

Jeg har brugt de sidste fem år på at fordybe mig i den fascinerende verden af ​​Machine Learning og Deep Learning. Min passion og ekspertise har ført mig til at bidrage til over 50 forskellige software engineering projekter, med særligt fokus på AI/ML. Min vedvarende nysgerrighed har også trukket mig hen imod Natural Language Processing, et felt jeg er ivrig efter at udforske yderligere.