Sztuczna inteligencja

W środku Microsoft’s Phi-3 Mini: lekki model AI bijący ponad swój wymiar

Published May 1, 2024

Updated April 27, 2026

Aayush Mittal Mittal

Microsoft niedawno przedstawił swój najnowszy lekki model językowy o nazwie Phi-3 Mini, rozpoczynając trylogię kompaktowych modeli AI, które zostały zaprojektowane do dostarczania najnowocześniejszych osiągnięć, przy jednoczesnym zachowaniu niewielkiego rozmiaru, umożliwiającego efektywną pracę na urządzeniach z ograniczonymi zasobami obliczeniowymi. Przy zaledwie 3,8 miliardach parametrów Phi-3 Mini jest ułamkiem rozmiaru gigantów AI, takich jak GPT-4, a jednak obiecuje dorównać ich możliwościom w wielu kluczowych obszarach.

Rozwój Phi-3 Mini stanowi znaczący kamień milowy w dążeniu do udostępnienia zaawansowanych możliwości AI na szerszym zakresie sprzętu. Jego niewielka ślad pozwalająca na wdrożenie go lokalnie na smartfonach, tabletach i innych urządzeniach krawędziowych, pokonując opóźnienia i problemy z prywatnością związane z modelami opartymi na chmurze. Otwiera to nowe możliwości dla inteligentnych doświadczeń na urządzeniu w różnych dziedzinach, od wirtualnych asystentów i AI konwersacyjnej do asystentów kodowania i zadań związanych z rozumieniem języka.

: 4-bit quantized phi-3-mini running natively on an iPhone

Pod maską: Architektura i szkolenie

W swojej istocie Phi-3 Mini jest modelem dekodera transformatora zbudowanym na podobnej architekturze, jak model Llama-2. Posiada 32 warstwy, 3072 ukryte wymiary i 32 głowy uwagi, z domyślną długością kontekstu 4 000 tokenów. Microsoft wprowadził również wersję o długim kontekście o nazwie Phi-3 Mini-128K, która rozszerza długość kontekstu do imponujących 128 000 tokenów przy użyciu technik takich jak LongRope.

To, co wyróżnia Phi-3 Mini, jest jednak jego metoda szkolenia. Zamiast polegać wyłącznie na sile ogromnych zbiorów danych i mocy obliczeniowej, Microsoft skoncentrował się na tworzeniu wysokiej jakości, gęstych danych szkoleniowych. Dane te składają się z intensywnie przefiltrowanych danych sieciowych, a także danych syntetycznych wygenerowanych przez większe modele językowe.

Proces szkolenia odbywa się w dwuetapowym podejściu. W pierwszym etapie model jest narażony na zróżnicowany zakres źródeł sieciowych, mających na celu nauczenie go ogólnej wiedzy i zrozumienia języka. Drugi etap łączy jeszcze bardziej przefiltrowane dane sieciowe z danymi syntetycznymi zaprojektowanymi w celu przekazania umiejętności logicznego myślenia i wiedzy z dziedziny.

Microsoft nazywa to podejście “optymalnym reżimem danych”, odbiegającym od tradycyjnego “optymalnego reżimu obliczeniowego” lub “nadmiernego reżimu szkoleniowego” zastosowanego przez wiele dużych modeli językowych. Celem jest skalibrowanie danych szkoleniowych do dopasowania do skali modelu, zapewnienie odpowiedniego poziomu wiedzy i umiejętności myślenia, pozostawiając wystarczającą pojemność dla innych możliwości.

: Quality of new Phi-3 models, as measured by performance on the Massive Multitask Language Understanding (MMLU) benchmark

To podejście oparte na danych przyniosło efekty, ponieważ Phi-3 Mini osiąga godne uwagi wyniki w szerokim zakresie akademickich benchmarków, często rywalizując lub przewyższając znacznie większe modele. Na przykład uzyskuje 69% w teście MMLU dla wielozadaniowego uczenia i zrozumienia, oraz 8,38 w teście MT-bench dla rozumowania matematycznego – wyniki, które są porównywalne z modelami takimi jak Mixtral 8x7B i GPT-3.5.

Bezpieczeństwo i wytrzymałość

Oprócz imponującej wydajności Microsoft położył silny nacisk na bezpieczeństwo i wytrzymałość w rozwoju Phi-3 Mini. Model przeszedł rygorystyczny proces szkolenia po szkoleniu, obejmujący nadzorowane szkolenie (SFT) i optymalizację preferencji bezpośrednich (DPO).

Etap SFT wykorzystuje starannie wyselekcjonowane dane z różnych dziedzin, w tym matematyki, kodowania, myślenia, konwersacji, tożsamości modelu i bezpieczeństwa. Pomaga to wzmocnić możliwości modelu w tych obszarach, wpajając silne poczucie tożsamości i etycznego zachowania.

Etap DPO koncentruje się na odwróceniu modelu od niepożądanych zachowań, wykorzystując odrzucone odpowiedzi jako przykłady negatywne. Proces ten obejmuje dane w formacie czatu, zadania z myślenia i wysiłki w zakresie odpowiedzialnego AI (RAI), zapewniając, że Phi-3 Mini przestrzega zasad Microsoftu dotyczących etycznego i godnego zaufania AI.

Aby dalej poprawić swój profil bezpieczeństwa, Phi-3 Mini został poddany obszernemu testowaniu czerwonym i automatycznemu testowaniu w dziesiątkach kategorii RAI. Niezależna drużyna czerwona w Microsoft iteracyjnie badała model, identyfikując obszary do poprawy, które zostały następnie rozwiązane za pomocą dodatkowych, starannie wyselekcjonowanych zbiorów danych i ponownego szkolenia.

To wieloetapowe podejście znacznie zmniejszyło przypadki szkodliwych odpowiedzi, nieścisłości faktograficznych i uprzedzeń, jak to zostało udowodnione przez wewnętrzne benchmarki RAI Microsoftu. Na przykład model wykazuje niskie wskaźniki wad dla kontynuacji szkodliwych treści (0,75%) i streszczenia (10%), a także niski wskaźnik nieuzasadnienia (0,603), wskazując, że jego odpowiedzi są solidnie zakorzenione w danym kontekście.

Aplikacje i przypadki użycia

Z imponującą wydajnością i solidnymi środkami bezpieczeństwa Phi-3 Mini jest dobrze przystosowany do szerokiego zakresu aplikacji, szczególnie w środowiskach o ograniczonych zasobach i scenariuszach ograniczonych opóźnieniami.

Jedną z najbardziej ekscytujących perspektyw jest wdrożenie inteligentnych wirtualnych asystentów i AI konwersacyjnej bezpośrednio na urządzeniach mobilnych. Dzięki uruchomieniu lokalnie asystenci ci mogą zapewnić natychmiastowe odpowiedzi bez potrzeby połączenia sieciowego, a także zapewnić, że wrażliwe dane pozostają na urządzeniu, rozwiązując problemy związane z prywatnością.

Silne zdolności myślenia Phi-3 Mini sprawiają, że jest to cenny atut dla asystentów kodowania i rozwiązywania problemów matematycznych. Deweloperzy i studenci mogą skorzystać z ukończenia kodu na urządzeniu, wykrywania błędów i wyjaśnień, usprawniając procesy tworzenia i uczenia.
Poza tymi aplikacjami elastyczność modelu otwiera możliwości w takich obszarach, jak zrozumienie języka, streszczenie tekstu i odpowiedzi na pytania. Jego niewielki rozmiar i wydajność sprawiają, że jest atrakcyjnym wyborem do wbudowania możliwości AI w szeroki zakres urządzeń i systemów, od inteligentnych urządzeń domowych po systemy automatyki przemysłowej.

Spójrzmy w przyszłość: Phi-3 Small i Phi-3 Medium

Chociaż Phi-3 Mini jest osiągnięciem godnym uwagi, Microsoft ma jeszcze większe plany dla rodziny Phi-3. Firma już zapowiedziała dwa większe modele, Phi-3 Small (7 miliardów parametrów) i Phi-3 Medium (14 miliardów parametrów), które mają przesunąć granice wydajności dla kompaktowych modeli językowych.

Phi-3 Small, na przykład, wykorzystuje bardziej zaawansowany tokenizator (tiktoken) i mechanizm uwagi grupowej, wraz z nową warstwą uwagi blocksparse, w celu zoptymalizowania śladu pamięci, przy zachowaniu długiego kontekstu i wydajności. Zawiera również dodatkowe 10% danych wielojęzycznych, zwiększając jego zdolności w zrozumieniu i generowaniu języka w wielu językach.

Phi-3 Medium reprezentuje znaczący krok w górę pod względem skali, z 40 warstwami, 40 głowami uwagi i wymiarem osadzania 5 120. Chociaż Microsoft zauważa, że niektóre benchmarki mogą wymagać dalszego udoskonalenia mieszanki danych szkoleniowych, aby w pełni wykorzystać tę zwiększoną pojemność, wstępne wyniki są obiecujące, z znaczącymi poprawami w stosunku do Phi-3 Small w zadaniach takich jak MMLU, TriviaQA i HumanEval.

Ograniczenia i kierunki przyszłego rozwoju

Pomimo imponujących możliwości Phi-3 Mini, jak wszystkie modele językowe, nie jest pozbawiony ograniczeń. Jedną z najbardziej znaczących słabości jest jego relatywnie ograniczona pojemność do przechowywania wiedzy faktograficznej, co jest widoczne w jego niższych wynikach w benchmarkach takich jak TriviaQA.

Jednak Microsoft uważa, że to ograniczenie można złagodzić, uzupełniając model możliwościami wyszukiwania, umożliwiając mu pobieranie i myślenie nad istotnymi informacjami na żądanie. To podejście jest zademonstrowane w Hugging Face Chat-UI, gdzie Phi-3 Mini może wykorzystać wyszukiwanie, aby poprawić swoje odpowiedzi.

Innym obszarem do poprawy jest wielojęzyczność modelu. Chociaż Phi-3 Small poczynił pierwsze kroki, włączając dodatkowe dane wielojęzyczne, potrzeba dalszej pracy, aby w pełni odblokować potencjał tych kompaktowych modeli dla aplikacji międzyjęzykowych.

Spójrzmy w przyszłość, Microsoft jest zaangażowany w ciągłe doskonalenie modeli Phi, rozwiązując ich ograniczenia i rozszerzając ich możliwości. To może obejmować dalsze udoskonalenia danych szkoleniowych i metodyki, a także eksplorację nowych architektur i technik specjalnie dostosowanych do kompaktowych, wysokowydajnych modeli językowych.

Podsumowanie

Phi-3 Mini od Microsoftu reprezentuje znaczący skok w demokratyzacji zaawansowanych możliwości AI. Dostarczając najnowocześniejszą wydajność w kompaktowym, efektywnym pakiecie, otwiera nowe możliwości dla inteligentnych doświadczeń na urządzeniu w szerokim zakresie aplikacji.

Innowacyjne podejście do szkolenia modelu, które kładzie nacisk na wysokiej jakości, gęste dane szkoleniowe zamiast samej mocy obliczeniowej, okazało się przełomowe, umożliwiając Phi-3 Mini bijąc ponad swój wymiar. W połączeniu z solidnymi środkami bezpieczeństwa i ciągłymi wysiłkami rozwojowymi rodzina modeli Phi jest gotowa do odegrania kluczowej roli w kształtowaniu przyszłości systemów inteligentnych, czyniąc AI bardziej dostępnym, efektywnym i godnym zaufania niż kiedykolwiek wcześniej.

Podczas gdy branża technologiczna kontynuuje poszerzanie granic tego, co jest możliwe z AI, zaangażowanie Microsoftu w lekkie, wysokowydajne modele, takie jak Phi-3 Mini, reprezentuje odświeżającą odmianę od konwencjonalnej mądrości “im większy, tym lepiej”. Pokazując, że rozmiar nie jest wszystkim, Phi-3 Mini ma potencjał, aby zainspirować nową falę innowacji skoncentrowanych na maksymalizowaniu wartości i wpływu AI poprzez inteligentną kurację danych, przemyślaną konstrukcję modelu i odpowiedzialne praktyki rozwojowe.

Aayush Mittal

Spędziłem ostatnie pięć lat, zanurzając się w fascynującym świecie Machine Learning i Deep Learning. Moja pasja i ekspertyza doprowadziły mnie do udziału w ponad 50 różnych projektach inżynierii oprogramowania, ze szczególnym uwzględnieniem AI/ML. Moja nieustanna ciekawość również skierowała mnie w stronę Natural Language Processing, dziedziny, którą chcę bardziej zbadać.

Unite.AI