Inteligență artificială

În interiorul Phi-3 Mini de la Microsoft: Un model de inteligență artificială ușor care lovește peste greutatea sa

Published May 1, 2024

Updated April 27, 2026

Aayush Mittal Mittal

Microsoft a dezvăluit recent cel mai recent model de limbaj ușor, numit Phi-3 Mini, care marchează începutul unei trilogii de modele de inteligență artificială compacte, proiectate pentru a oferi performanțe de ultimă generație, fiind suficient de mici pentru a rula eficient pe dispozitive cu resurse de calcul limitate. La doar 3,8 miliarde de parametri, Phi-3 Mini este o fracțiune din mărimea giganților AI precum GPT-4, dar promite să le egaleze capacitățile în multe domenii cheie.

Dezvoltarea Phi-3 Mini reprezintă o piatră de hotar importantă în căutarea de a democratiza capacitățile avansate de inteligență artificială, făcându-le accesibile pe o gamă mai largă de hardware. Amprenta sa mică îi permite să fie implementat local pe smartphone-uri, tablete și alte dispozitive de margine, depășind problemele de întârziere și confidențialitate asociate cu modelele bazate pe cloud. Acest lucru deschide noi posibilități pentru experiențe inteligente pe dispozitive din diverse domenii, de la asistenți virtuali și inteligență conversațională la asistenți de codare și sarcini de înțelegere a limbajului.

: 4-bit quantized phi-3-mini rulează nativ pe un iPhone

Sub capotă: Arhitectură și instruire

În esență, Phi-3 Mini este un model decodificator de transformator construit pe o arhitectură similară cu modelul open-source Llama-2. Acesta dispune de 32 de straturi, 3072 de dimensiuni ascunse și 32 de capete de atenție, cu o lungime de context implicită de 4.000 de tokeni. Microsoft a introdus, de asemenea, o versiune cu context lung numită Phi-3 Mini-128K, care extinde lungimea contextului la 128.000 de tokeni, utilizând tehnici precum LongRope.

Ceea ce diferențiază Phi-3 Mini este metodologia sa de instruire. În loc să se bazeze doar pe forța brută a seturilor de date masive și a puterii de calcul, Microsoft s-a concentrat pe crearea unui set de date de instruire de înaltă calitate, dens în raționament. Acest set de date este compus din date web puternic filtrate, precum și din date sintetice generate de modele de limbaj mai mari.

Procesul de instruire urmează o abordare în două faze. În prima fază, modelul este expus la o gamă diversă de surse web menite să-i învețe cunoștințe generale și înțelegere a limbajului. A doua fază combină date web și mai puternic filtrate cu date sintetice proiectate pentru a-i impune abilități de raționament logic și expertiză în domenii de nișă.

Microsoft se referă la această abordare ca la “regimul optim de date”, o abatere de la “regimul optim de calcul” sau “regimul de suprainstruire” utilizat de multe modele de limbaj mari. Scopul este să calibreze datele de instruire pentru a se potrivi cu scala modelului, oferind nivelul potrivit de cunoștințe și abilități de raționament, în timp ce lasă suficientă capacitate pentru alte capacități.

: Calitatea noilor modele Phi-3, măsurată prin performanță pe benchmark-ul Massive Multitask Language Understanding (MMLU)

Această abordare axată pe date a dat roade, deoarece Phi-3 Mini obține performanțe remarcabile pe o gamă largă de benchmark-uri academice, adesea rivalizând sau depășind modele mult mai mari. De exemplu, obține 69% pe benchmark-ul MMLU pentru învățare multi-task și înțelegere, și 8,38 pe MT-bench pentru raționament matematic – rezultate care sunt la nivelul modelelor precum Mixtral 8x7B și GPT-3.5.

Siguranță și robustețe

Alături de performanța sa impresionantă, Microsoft a pus un accent puternic pe siguranță și robustețe în dezvoltarea Phi-3 Mini. Modelul a suferit un proces riguros de finisare post-instruire, implicând instruire fină supravegheată (SFT) și optimizare directă a preferințelor (DPO).

Etapa SFT utilizează date puternic curate din diverse domenii, incluzând matematică, codare, raționament, conversație, identitatea modelului și siguranță. Acest lucru ajută la consolidarea capacităților modelului în aceste domenii, în timp ce îi insuflă o puternică identitate și comportament etic.

Etapa DPO, pe de altă parte, se concentrează pe îndepărtarea modelului de comportamente nedorite, utilizând răspunsuri respinse ca exemple negative. Acest proces acoperă date de chat, sarcini de raționament și eforturi de inteligență artificială responsabilă (RAI), asigurându-se că Phi-3 Mini respectă principiile Microsoft de inteligență artificială etică și de încredere.

Pentru a-și consolida și mai mult profilul de siguranță, Phi-3 Mini a fost supus unor teste extinse de “red teaming” și testare automată pe zeci de categorii de daune RAI. O echipă independentă de “red team” de la Microsoft a examinat iterativ modelul, identificând domenii de îmbunătățire, care au fost apoi abordate prin seturi de date curate suplimentare și reinstruire.

Acestă abordare multi-pronged a redus semnificativ incidența răspunsurilor dăunătoare, inexactităților factuale și a prejudecăților, așa cum este demonstrat de benchmark-urile interne RAI ale Microsoft. De exemplu, modelul prezintă rate scăzute de defecte pentru conținut dăunător (0,75%) și rezumare (10%), precum și o rată scăzută de “ungroundedness” (0,603), indicând că răspunsurile sale sunt ferm înrădăcinate în contextul dat.

Apliicații și cazuri de utilizare

Cu performanța sa impresionantă și măsurile robuste de siguranță, Phi-3 Mini este bine adaptat pentru o gamă largă de aplicații, în special în medii cu resurse limitate și în scenarii cu latență.

Una dintre perspectivele cele mai interesante este implementarea asistenților virtuali inteligenți și a inteligenței conversaționale direct pe dispozitive mobile. Prin rularea locală, acești asistenți pot oferi răspunsuri instantanee fără a necesita o conexiune de rețea, asigurând în același timp că datele sensibile rămân pe dispozitiv, abordând astfel preocupările legate de confidențialitate.

Abilitățile puternice de raționament ale Phi-3 Mini îl fac și o resursă valoroasă pentru asistență de codare și rezolvare de probleme matematice. Dezvoltatorii și studenții pot beneficia de completarea codului pe dispozitiv, detectarea erorilor și explicații, simplificând procesele de dezvoltare și învățare.

Dincolo de aceste aplicații, versatilitatea modelului deschide oportunități în domenii precum înțelegerea limbajului, rezumarea textului și răspunsurile la întrebări. Dimensiunea sa mică și eficiența îl fac o alegere atractivă pentru încorporarea capacităților de inteligență artificială într-o gamă largă de dispozitive și sisteme, de la aparate de uz casnic inteligente la sisteme de automatizare industrială.

Privind spre viitor: Phi-3 Small și Phi-3 Medium

În timp ce Phi-3 Mini este o realizare remarcabilă în sine, Microsoft are planuri și mai mari pentru familia Phi-3. Compania a prezentat deja două modele mai mari, Phi-3 Small (7 miliarde de parametri) și Phi-3 Medium (14 miliarde de parametri), ambele fiind așteptate să împingă limitele performanței pentru modelele de limbaj compacte.

Phi-3 Small, de exemplu, utilizează un tokenizator mai avansat (tiktoken) și un mecanism de atenție grupată, împreună cu un strat de atenție blocksparse, pentru a optimiza amprenta sa de memorie, menținând în același timp performanța de recuperare a contextului lung. De asemenea, încorporează un supliment de 10% din date multilingve, îmbunătățindu-și capacitățile de înțelegere și generare a limbajului în multiple limbi.

Phi-3 Medium, pe de altă parte, reprezintă un salt semnificativ în scară, cu 40 de straturi, 40 de capete de atenție și o dimensiune de încorporare de 5.120. Deși Microsoft notează că unele benchmark-uri pot necesita o refacere suplimentară a amestecului de date de instruire pentru a valorifica pe deplin această capacitate crescută, rezultatele inițiale sunt promițătoare, cu îmbunătățiri substanțiale față de Phi-3 Small în sarcini precum MMLU, TriviaQA și HumanEval.

Limitări și direcții viitoare

În ciuda capacităților sale impresionante, Phi-3 Mini, ca și toate modelele de limbaj, nu este lipsit de limitări. Una dintre cele mai notabile slăbiciuni este capacitatea sa relativ limitată de stocare a cunoștințelor factuale, așa cum este evidențiat de performanța sa mai scăzută pe benchmark-uri precum TriviaQA.

Cu toate acestea, Microsoft consideră că această limitare poate fi atenuată prin completarea modelului cu capacități de căutare, permițându-i să recupereze și să raționeze informații relevante la cerere. Această abordare este demonstrată în Hugging Face Chat-UI, unde Phi-3 Mini poate utiliza căutarea pentru a-și îmbunătăți răspunsurile.

O altă zonă de îmbunătățire este capacitatea modelului de a funcționa în multiple limbi. Deși Phi-3 Small a făcut primii pași prin încorporarea de date multilingve suplimentare, este nevoie de mai multă muncă pentru a debloca pe deplin potențialul acestor modele compacte pentru aplicații cross-linguale.

Privind spre viitor, Microsoft este dedicat să continue să avanseze familia de modele Phi, abordând limitările lor și extinzându-le capacitățile. Acest lucru poate implica refinerii suplimentare ale datelor de instruire și metodologiei, precum și explorarea de noi arhitecturi și tehnici special concepute pentru modele de limbaj compacte și de înaltă performanță.

Concluzie

Phi-3 Mini de la Microsoft reprezintă un salt semnificativ în direcția democratizării capacităților avansate de inteligență artificială. Prin oferirea de performanțe de ultimă generație într-un pachet compact și eficient din punct de vedere al resurselor, deschide noi posibilități pentru experiențe inteligente pe dispozitive dintr-o gamă largă de aplicații.

Abordarea inovatoare de instruire a modelului, care pune accentul pe date de înaltă calitate și dense în raționament, mai degrabă decât pe puterea brută de calcul, s-a dovedit a fi un joc schimbător, permițând Phi-3 Mini să lovească peste greutatea sa. În combinație cu măsurile sale robuste de siguranță și eforturile continue de dezvoltare, familia de modele Phi-3 este poziționată pentru a juca un rol crucial în modelarea viitorului sistemelor inteligente, făcând inteligența artificială mai accesibilă, eficientă și de încredere ca niciodată.

Pe măsură ce industria tehnologică continuă să împingă limitele a ceea ce este posibil cu inteligența artificială, angajamentul Microsoft față de modele ușoare și de înaltă performanță, precum Phi-3 Mini, reprezintă o abordare proaspătă și diferită de înțelepciunea convențională “că mai mare este mai bine”. Prin demonstrarea faptului că mărimea nu este totul, Phi-3 Mini are potențialul de a inspira o nouă valură de inovație axată pe maximizarea valorii și a impactului inteligenței artificiale prin curarea inteligentă a datelor, proiectarea atentă a modelului și practicile de dezvoltare responsabile.

Aayush Mittal

Am petrecut ultimii cinci ani scufundându-mă în lumea fascinantă a Învățării Automate și a Învățării Profunde. Pasiunea și expertiza mea m-au condus să contribui la peste 50 de proiecte diverse de inginerie software, cu un accent deosebit pe AI/ML. Curiozitatea mea continuă m-a atras și spre Procesarea Limbajului Natural, un domeniu pe care sunt dornic să-l explorez mai departe.

Unite.AI